【发布时间】:2012-12-31 11:16:47
【问题描述】:
我每天需要处理 300 GB 的日志文件(导入 -> 转换为其他格式 -> 上传)。
选择哪种技术最好? Spring Batch 还是 Apache Hadoop?我对这些技术很陌生,无法追踪那里的限制。此外,文件大小可能会无限增长。除此之外,我需要使用给定的硬件 3 台 Sun Blade 服务器和灾难恢复方法来设计应用程序。请提出建议。
【问题讨论】:
-
您能否更具体地了解您的应用程序的“转换”部分? spring batch 和 hadoop 都支持并行处理,但是要决定使用哪一个,你需要分析你的需求和每个平台的复杂性
-
目前处理量很小。例如:原始日志文件包含键和值(订阅者编号=+91 90090090),逗号分隔值。现在我需要用供应商定义的另一个键名来更改键名。例如:Subscriber Number=MSISDN,所以最后是 MSISDN=+91 90090090。
标签: java spring hadoop spring-batch