【问题标题】:Load Google Cloud Storage data into bigtable将 Google Cloud Storage 数据加载到 bigtable
【发布时间】:2018-04-30 22:39:17
【问题描述】:

有没有简单的方法或示例将Google Cloud Storage 数据加载到bigtable 中?

我有很多由 pyspark 生成的json 文件,我希望将数据加载到bigtable

但我找不到一个简单的方法来做到这一点!

我尝试了google-cloud-python 中的python 代码,它工作正常,但它只是将数据逐行读取到 bigtable 中,这对我来说很奇怪。

任何帮助将不胜感激。

【问题讨论】:

  • 你能把修改后的python代码发给我吗,我也有同样的要求

标签: python google-cloud-platform google-cloud-bigtable


【解决方案1】:

没有简单的工具可以读取 Cloud Bigtable 中的数据。以下是一些选项:

  1. 使用Dataflow 导入文件。这需要 Java 开发,并学习 Dataflow 编程模型。
  2. 使用 Python(可能使用 Pyspark)读取这些 json 文件,并使用称为 mutate_rows 的方法写入 Cloud Bigtable,该方法可以批量写入 Bigtable。

仅供参考,我在 Cloud Bigtable 团队工作。我是一名 Java 开发人员,所以我选择 #1。我们的团队一直在努力改善我们的 python 体验。扩展团队最近添加了一些可靠性改进,以确保 mutate_rows 对大型作业具有弹性。我们还没有任何与 PySpark 或 Apache Beam's python SDK 集成的好例子,但它们在我们的关注范围内。

【讨论】:

猜你喜欢
  • 2016-12-26
  • 1970-01-01
  • 2013-05-24
  • 2018-04-22
  • 1970-01-01
  • 1970-01-01
  • 2019-11-23
  • 2018-03-28
相关资源
最近更新 更多