【问题标题】:Avro file type for images?图像的 Avro 文件类型?
【发布时间】:2014-06-07 07:53:56
【问题描述】:

我尝试...在 Hadoop 中解决这种情况。

什么是最好的文件格式 Avro 或 SequenceFile,以防将图像存储在 HDFS 中并在之后使用 Python 处理它们?

SequenceFile 是面向键值的,所以我认为 Avro 文件会更好用?

【问题讨论】:

    标签: hadoop avro sequencefile


    【解决方案1】:

    我使用 SequenceFile 将图像存储在 HDFS 中,效果很好。 Avro 和 SequenceFile 都是二进制文件格式,因此它们可以有效地存储图像。作为 SequenceFile 中的键,我通常使用原始图像文件名。

    SequenceFile 用于许多图像处理产品,例如 OpenIMAJ。您可以使用现有工具处理 SequenceFile 中的图像,例如 OpenIMAJ SequenceFileTool

    另外,你可以看看HipiImageBundle。这是 HIPI (Hadoop Image Processing Interface) 提供的一种特殊格式。根据我的经验,HipiImageBundle 比 SequenceFile 具有更好的性能。但 in 只能由 HIPI 使用。

    如果你没有大量文件(小于1M),你可以尝试不打包存储在一个大文件中,use CombineFileInputFormat加速处理。

    我从不使用 Avro 来存储图像,也不知道有什么项目使用它。

    【讨论】:

      猜你喜欢
      • 2010-09-08
      • 1970-01-01
      • 2014-05-10
      • 1970-01-01
      • 1970-01-01
      • 2019-01-28
      • 2011-01-16
      • 1970-01-01
      • 2018-12-27
      相关资源
      最近更新 更多