【问题标题】:What technology to choose ? Spring Batch or Hadoop? [closed]选择什么技术? Spring Batch 还是 Hadoop? [关闭]
【发布时间】:2012-12-31 11:16:47
【问题描述】:

我每天需要处理 300 GB 的日志文件(导入 -> 转换为其他格式 -> 上传)。

选择哪种技术最好? Spring Batch 还是 Apache Hadoop?我对这些技术很陌生,无法追踪那里的限制。此外,文件大小可能会无限增长。除此之外,我需要使用给定的硬件 3 台 Sun Blade 服务器和灾难恢复方法来设计应用程序。请提出建议。

【问题讨论】:

  • 您能否更具体地了解您的应用程序的“转换”部分? spring batch 和 hadoop 都支持并行处理,但是要决定使用哪一个,你需要分析你的需求和每个平台的复杂性
  • 目前处理量很小。例如:原始日志文件包含键和值(订阅者编号=+91 90090090),逗号分隔值。现在我需要用供应商定义的另一个键名来更改键名。例如:Subscriber Number=MSISDN,所以最后是 MSISDN=+91 90090090。

标签: java spring hadoop spring-batch


【解决方案1】:

如果仅仅是文件格式转换,那么使用 Hadoop 是没有意义的,除非你可以将文件分成可以以令人尴尬的并行方式分布的块。

此外,如果您不需要进一步存储/索引/处理这些信息,则无需将其存储在某个地方。

最后但并非最不重要的一点是,评估将文件分解为单元的成本作为总计算成本的一部分。

【讨论】:

猜你喜欢
  • 1970-01-01
  • 2015-05-10
  • 2012-06-09
  • 1970-01-01
  • 1970-01-01
  • 2014-05-28
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多