【问题标题】:How to store lots of small HTML files in Google Cloud Storage to optimize Dataproc?如何在 Google Cloud Storage 中存储大量 HTML 小文件以优化 Dataproc?
【发布时间】:2018-12-19 19:00:40
【问题描述】:

我有兴趣在 HTML 解析任务上试用 Google Cloud Dataproc。我们目前在谷歌存储中有很多 (200M+) 的小 HTML 文件。我们希望能够将所有这些文件拉入 Hadoop(MapReduce 或 Spark)进行处理。

但是,我的理解是,Dataproc 在列出和读取大量小文件时表现不佳,而 Hadoop 通常也是如此。所以我的问题是,我应该如何将大量的小文件打包成更大的文件,以便高效地列出和读取?

我考虑过像 TAR/ZIP 这样的标准东西,但我的理解是这些东西是不可拆分的,因此并发性是有限的。

还有其他推荐的格式吗?我考虑过使用 avro,并将 HTML 作为字节字段存储在 avro 记录中,但我不认为 avro 真的适用于这种用例。

【问题讨论】:

    标签: hadoop google-cloud-storage google-cloud-dataproc


    【解决方案1】:

    您可以按照here 的建议使用Hadoop SequenceFile 来解决此问题。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-11-23
      • 2017-01-24
      • 2014-03-02
      • 1970-01-01
      • 2018-02-15
      • 1970-01-01
      • 1970-01-01
      • 2020-01-17
      相关资源
      最近更新 更多