【问题标题】:load a large (200 GB) Hbase table into a RDD without going through Hbase scans将大型(200 GB)Hbase 表加载到 RDD 中,而无需经过 Hbase 扫描
【发布时间】:2015-10-11 06:07:42
【问题描述】:

我想将一个大型(200 GB)Hbase 表加载到 RDD 中,而不经过 Hbase 扫描,即将 HFile 直接读入 RDD。

如果您可以分享任何显示使用 HFileInputformat 的示例/示例代码(或带有示例的网页链接),那将是非常棒的,因为我发现这些代码指向 HFileInputformat 的源代码。

不确定 2012/2013 年此处提到的危险是否仍然适用 - http://qnalist.com/questions/155178/hfileinputformat-for-mapreduce

【问题讨论】:

    标签: hbase


    【解决方案1】:

    我发现这个是 0.94。 https://gist.github.com/ashwanthkumar/5133733

    但危险依然存在。如果同时发生压缩或区域拆分,则会影响您的结果。

    【讨论】:

    • 感谢 ozhang 的指点。正如我所提到的,该链接仅显示 HFileInputFormat 类的源代码。我正在寻找使用 HFileInputformat 的示例。我也很想知道(如果?)这将如何与具有多个列族的 HBase 表一起使用,因为每个列族都有自己的 HFile,并且 MR 框架提供的“拆分”是按区域划分的。也不确定 HFileInputformat 返回的键和值是什么,例如,如果在列族 HFile 中我们有多个列存储为 KV 对。
    猜你喜欢
    • 1970-01-01
    • 2017-07-29
    • 2014-04-27
    • 2015-07-16
    • 2012-10-18
    • 1970-01-01
    • 2013-09-12
    • 2017-11-23
    • 1970-01-01
    相关资源
    最近更新 更多