【发布时间】:2014-06-07 07:53:56
【问题描述】:
我尝试...在 Hadoop 中解决这种情况。
什么是最好的文件格式 Avro 或 SequenceFile,以防将图像存储在 HDFS 中并在之后使用 Python 处理它们?
SequenceFile 是面向键值的,所以我认为 Avro 文件会更好用?
【问题讨论】:
标签: hadoop avro sequencefile
我尝试...在 Hadoop 中解决这种情况。
什么是最好的文件格式 Avro 或 SequenceFile,以防将图像存储在 HDFS 中并在之后使用 Python 处理它们?
SequenceFile 是面向键值的,所以我认为 Avro 文件会更好用?
【问题讨论】:
标签: hadoop avro sequencefile
我使用 SequenceFile 将图像存储在 HDFS 中,效果很好。 Avro 和 SequenceFile 都是二进制文件格式,因此它们可以有效地存储图像。作为 SequenceFile 中的键,我通常使用原始图像文件名。
SequenceFile 用于许多图像处理产品,例如 OpenIMAJ。您可以使用现有工具处理 SequenceFile 中的图像,例如 OpenIMAJ SequenceFileTool。
另外,你可以看看HipiImageBundle。这是 HIPI (Hadoop Image Processing Interface) 提供的一种特殊格式。根据我的经验,HipiImageBundle 比 SequenceFile 具有更好的性能。但 in 只能由 HIPI 使用。
如果你没有大量文件(小于1M),你可以尝试不打包存储在一个大文件中,use CombineFileInputFormat加速处理。
我从不使用 Avro 来存储图像,也不知道有什么项目使用它。
【讨论】: