【问题标题】:How to use spark streaming to get data from HBASE table using scala如何使用火花流从使用 scala 的 HBASE 表中获取数据
【发布时间】:2019-05-12 05:49:37
【问题描述】:

我正在尝试确定一种解决方案,以使用火花流从 HBASE 表中读取数据并将数据写入另一个 HBASE 表。

我在互联网上找到了许多示例,它们要求创建一个 DSTREAM 以从 HDFS 文件和所有文件中获取数据。但我无法找到任何示例来从 HBASE 表中获取数据

例如,如果我有一个 HBASE 表“SAMPLE”,其列为“名称”和“活动状态”。如何使用火花流从基于 activeStatus 列的表 SAMPLE 中检索数据(新数据?

欢迎任何使用火花流从 HBASE 表中检索数据的示例。

问候, 阿达什K S

【问题讨论】:

    标签: scala apache-spark hbase spark-streaming


    【解决方案1】:

    您需要的是一个能够让 spark 与 hbase 交互的库。 Horton Works 的shc 就是这样一个扩展:

    https://github.com/hortonworks-spark/shc

    【讨论】:

      【解决方案2】:

      您可以通过多种方式从 spark 连接到 hbase

      Hortonworks SHC 使用用户定义将 hbase 直接读取到数据帧 目录,而 hbase-rdd 将其读取为 rdd 并且可以转换为 DF 使用 toDF 方法。 hbase-rdd 具有批量写入选项(直接写入 HFiles),首选用于大量数据写入。

      【讨论】:

        猜你喜欢
        • 2021-07-16
        • 2016-12-16
        • 1970-01-01
        • 2020-04-25
        • 2018-08-20
        • 1970-01-01
        • 1970-01-01
        • 2018-10-27
        • 2023-03-18
        相关资源
        最近更新 更多