【问题标题】:Using Google Dataproc to import CSV data in Bigtable使用 Google Dataproc 在 Bigtable 中导入 CSV 数据
【发布时间】:2015-09-30 14:27:22
【问题描述】:

我正在尝试使用 Dataproc 集群的实例将大型 CSV 文件导入 HDFS,然后将它们导出为 SequenceFile 格式,最后将最新的导入 Bigtable,如下所述: https://cloud.google.com/bigtable/docs/exporting-importing

我最初将 CSV 文件作为外部表导入到 Hive 中,然后通过将它们插入到 SequenceFile 支持的表中来导出它们。

但是(可能是因为 dataproc 似乎附带 Hive 1.0?),我遇到了这里提到的转换异常错误:Bigtable import error

我似乎无法在 dataproc 主虚拟机上启动并运行 HBase shell 或 ZooKeeper,因此我无法从 CLI 运行简单的导出作业。

  1. 是否有其他方法可以从 dataproc 导出与 bigtable 兼容的序列文件?

  2. 为了让 HBase 和 ZooKeeper 从 Dataproc VM 主节点运行,正确的配置是什么?

【问题讨论】:

    标签: google-cloud-bigtable google-cloud-dataproc


    【解决方案1】:

    您链接到的导入说明是从现有 HBase 部署中导入数据的说明。

    如果您使用的输入格式是 CSV,则创建 SequenceFiles 可能是不必要的步骤。编写一个 Hadoop MapReduce 来处理 CSV 文件并直接写入 Cloud Bigtable 怎么样?数据流在这里也很合适。

    在此处查看示例: https://github.com/GoogleCloudPlatform/cloud-bigtable-examples/tree/master/java

    【讨论】:

    • 谢谢。我最终弄清楚了这一点,并开始从事上述的 MR 工作。尽管 Dataproc 没有内置 Bigtable 支持(我必须自己安装库并设置 HBase),但它确实让我感到困惑。另外,我在尝试在本地提交 hadoop 作业时遇到了几个与 zookeeper 相关的问题……有没有计划尽快将 dataproc 与 bdutil 合并?我应该暂时只使用最新的吗?
    • 我现在不能透露具体的时间表,但我们的目标绝对是整合我们大数据生态系统的所有部分,并且在最大限度地减少开发人员摩擦的情况下做到这一点。敬请期待!
    • Hive for Dataproc 的更新正在进行中 - 它应该会在接下来的几周内随 Dataproc 一起提供。
    • @Max这里的代码将多列的csv数据写入一个BigTable列中。你能提供解决这个问题的方法吗??
    猜你喜欢
    • 2019-07-15
    • 2016-03-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-02-23
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多