如何在 Google Cloud Storage 中存储大量 HTML 小文件以优化 Dataproc？答案

【问题标题】：How to store lots of small HTML files in Google Cloud Storage to optimize Dataproc?如何在 Google Cloud Storage 中存储大量 HTML 小文件以优化 Dataproc？
【发布时间】：2018-12-19 19:00:40
【问题描述】：

我有兴趣在 HTML 解析任务上试用 Google Cloud Dataproc。我们目前在谷歌存储中有很多 (200M+) 的小 HTML 文件。我们希望能够将所有这些文件拉入 Hadoop（MapReduce 或 Spark）进行处理。

但是，我的理解是，Dataproc 在列出和读取大量小文件时表现不佳，而 Hadoop 通常也是如此。所以我的问题是，我应该如何将大量的小文件打包成更大的文件，以便高效地列出和读取？

我考虑过像 TAR/ZIP 这样的标准东西，但我的理解是这些东西是不可拆分的，因此并发性是有限的。

还有其他推荐的格式吗？我考虑过使用 avro，并将 HTML 作为字节字段存储在 avro 记录中，但我不认为 avro 真的适用于这种用例。

【问题讨论】：

标签： hadoop google-cloud-storage google-cloud-dataproc

【解决方案1】：

您可以按照here 的建议使用Hadoop SequenceFile 来解决此问题。

【讨论】：