【发布时间】:2018-12-19 19:00:40
【问题描述】:
我有兴趣在 HTML 解析任务上试用 Google Cloud Dataproc。我们目前在谷歌存储中有很多 (200M+) 的小 HTML 文件。我们希望能够将所有这些文件拉入 Hadoop(MapReduce 或 Spark)进行处理。
但是,我的理解是,Dataproc 在列出和读取大量小文件时表现不佳,而 Hadoop 通常也是如此。所以我的问题是,我应该如何将大量的小文件打包成更大的文件,以便高效地列出和读取?
我考虑过像 TAR/ZIP 这样的标准东西,但我的理解是这些东西是不可拆分的,因此并发性是有限的。
还有其他推荐的格式吗?我考虑过使用 avro,并将 HTML 作为字节字段存储在 avro 记录中,但我不认为 avro 真的适用于这种用例。
【问题讨论】:
标签: hadoop google-cloud-storage google-cloud-dataproc