【问题标题】:Bulk hive table creation in Google Dataproc在 Google Dataproc 中批量创建配置单元表
【发布时间】:2021-01-12 10:39:22
【问题描述】:

我是 Google Cloud Platform 的新手,我正在做一个 POC 来将 Hive 应用程序(表和作业)移动到 Google Dataproc。数据已移至 Google 云存储。

是否有一种内置方法可以在 dataproc 中批量创建 hive 中的所有表,而不是使用 hive 提示符一一创建?

【问题讨论】:

  • 我知道我可以在一个文件中预先创建所有 hive DDL 并将其放入 GCS 中,然后使用 beeline 运行此文件,但是有没有办法自动化这个过程?

标签: google-cloud-platform google-cloud-dataproc


【解决方案1】:

Dataproc 支持 Hive 作业类型,因此可以使用 gcloud 命令:

gcloud dataproc jobs submit hive --cluster=CLUSTER \
   -e 'create table t1 (id int, name string); create table t2 ...;'

gcloud dataproc jobs submit hive --cluster=CLUSTER -f create_tables.hql

你也可以SSH进入主节点,然后使用beeline执行脚本:

beeline -u jdbc:hive2://localhost:10000 -f create_tables.hql

【讨论】:

  • 感谢@Dagang 的回答。您认为触发这些命令的最佳方式是什么,因为我将不得不自动化整个过程。我可以创建一个运行上述任何命令的 dataproc 工作流,或者如果您有任何其他更好的方法,请分享!
  • 有很多方法可以自动执行命令,具体取决于您的用例。您可以考虑 Dataproc Workflow、Cloud Composer、Terraform、从另一个 GCE 虚拟机运行的简单 shell 脚本等。
猜你喜欢
  • 1970-01-01
  • 2023-01-13
  • 2021-04-26
  • 2023-03-04
  • 2018-02-03
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多