【发布时间】:2018-08-29 22:26:33
【问题描述】:
我需要将存储在本地 HDFS 中的非常大的表传输到 Google Cloud。所有表都是 ORC 格式。转移所有桌子的最佳方式是什么?
【问题讨论】:
-
根据什么distcp不支持orc?它会复制我上次检查时的所有文件类型
标签: hadoop hdfs google-cloud-storage orc
我需要将存储在本地 HDFS 中的非常大的表传输到 Google Cloud。所有表都是 ORC 格式。转移所有桌子的最佳方式是什么?
【问题讨论】:
标签: hadoop hdfs google-cloud-storage orc
我建议您查看Migrating HDFS Data from On-Premises to Google Cloud Platform 指南,您可以在其中找到有关将数据移动到 GCP 时需要考虑的主要方面以及执行迁移所需的steps 的详细说明任务。此外,您可以查看Working with GCP partners 选项,以防在迁移过程中需要专门帮助。
【讨论】:
DistCp命令;否则,您可以执行hadoop fs -get 和hadoop fs -copyToLocal 命令将您的HDFS 文件复制到本地文件系统,然后使用Cloud SDK gsutil 工具将它们加载到GCS 中。