【发布时间】:2015-09-30 14:27:22
【问题描述】:
我正在尝试使用 Dataproc 集群的实例将大型 CSV 文件导入 HDFS,然后将它们导出为 SequenceFile 格式,最后将最新的导入 Bigtable,如下所述: https://cloud.google.com/bigtable/docs/exporting-importing
我最初将 CSV 文件作为外部表导入到 Hive 中,然后通过将它们插入到 SequenceFile 支持的表中来导出它们。
但是(可能是因为 dataproc 似乎附带 Hive 1.0?),我遇到了这里提到的转换异常错误:Bigtable import error
我似乎无法在 dataproc 主虚拟机上启动并运行 HBase shell 或 ZooKeeper,因此我无法从 CLI 运行简单的导出作业。
是否有其他方法可以从 dataproc 导出与 bigtable 兼容的序列文件?
为了让 HBase 和 ZooKeeper 从 Dataproc VM 主节点运行,正确的配置是什么?
【问题讨论】:
标签: google-cloud-bigtable google-cloud-dataproc