【发布时间】:2017-06-15 13:03:11
【问题描述】:
我有几台机器,其中包含 TB 的自定义格式的日志数据,可以使用 c++ 库读取。我想将所有数据上传到 hadoop 集群 (HDFS),同时将其转换为 parquet 文件。
这是一个持续的过程(意味着每天我都会获得更多数据),而不是一次性的努力。
什么是最好的选择来做它的性能明智(有效地做)?
parquet C++ 库和 Java 库一样好吗? (更新、错误等)
该解决方案应该每天处理数十个 TB 甚至更多。
日志数据持续到达并且应该立即在 HDFS 集群上可用。
【问题讨论】: