【问题标题】:Hbase BulkLoad without mapreduce没有 mapreduce 的 Hbase BulkLoad
【发布时间】:2015-06-11 12:25:54
【问题描述】:

我想知道是否可以编写一个在 HBase 上执行 BulkLoad 的 java 程序。我在 hadoop 集群上,但由于某种原因我不需要编写 MapReduce Job。

谢谢

【问题讨论】:

    标签: mapreduce hbase bulk-load


    【解决方案1】:

    BulkLoad 与 HFile 一起使用。所以如果你有 HFiles,你可以直接使用 LoadIncrementalHFiles 来处理批量加载。 一般我们使用 Map reduce,它可以将数据转换为上述格式,并执行 Bulk Load。 如果您有 csv 文件,您可以使用 ImportTsv 实用程序将您的数据处理成 HFiles。使用this link,了解更多信息 这取决于您当前的数据格式。 需要注意的是,Bulk Load,不要使用 Write ahead Logs(WAL)。他们跳过这一步并以更快的速度添加数据。如果您有任何其他依赖于上述 WAL 的框架,请考虑在 Hbase 中添加数据的其他选项。快乐编码。

    【讨论】:

    • 我有大量的小型 PDF 文件 (2m+),我会将它们插入 HBase。我尝试过直接放置,但遇到了 WAL 问题。所以我想使用 BulkLoad,但我不能使用 mapreduce,因为我不能在 HDFS 上移动这些文件,我会使所有 Inode 饱和,因为它们是大量的小文件。
    • 请添加您的问题:)。我假设,您想将大量 pdf 文件添加到 Hbase 中,并尝试使用 put 但没有成功。所以你想使用批量加载而不是使用 mapreduce。所以想要一个替代解决方案。简而言之 - 许多 pdf、hbase 存储、批量加载、没有 mapreduce。我说的对吗
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多