【问题标题】:Transferring hive tables stored in orc format from on premise HDFS to Google Cloud Storage将以 orc 格式存储的 Hive 表从本地 HDFS 传输到 Google Cloud Storage
【发布时间】:2018-08-29 22:26:33
【问题描述】:

我需要将存储在本地 HDFS 中的非常大的表传输到 Google Cloud。所有表都是 ORC 格式。转移所有桌子的最佳方式是什么?

【问题讨论】:

  • 根据什么distcp不支持orc?它会复制我上次检查时的所有文件类型

标签: hadoop hdfs google-cloud-storage orc


【解决方案1】:

我建议您查看Migrating HDFS Data from On-Premises to Google Cloud Platform 指南,您可以在其中找到有关将数据移动到 GCP 时需要考虑的主要方面以及执行迁移所需的steps 的详细说明任务。此外,您可以查看Working with GCP partners 选项,以防在迁移过程中需要专门帮助。

【讨论】:

  • 您分享的链接说明了使用 DistCp 迁移数据。但是,distcp 还不支持 ORC 格式。那么有没有其他方法可以迁移以orc格式存储的数据呢?
  • 您可以convert your ORC files to a supported format,如Avro、JSON或CSV,以便使用DistCp命令;否则,您可以执行hadoop fs -gethadoop fs -copyToLocal 命令将您的HDFS 文件复制到本地文件系统,然后使用Cloud SDK gsutil 工具将它们加载到GCS 中。
  • 如果您想将文件加载到 BigQuery 中,我建议您也可以查看 [Loading ORC Data from Google Cloud Storage](cloud.google.com/bigquery/docs/loading-data-cloud-storage-orc) 指南。
猜你喜欢
  • 2018-02-27
  • 1970-01-01
  • 1970-01-01
  • 2017-04-30
  • 2023-04-08
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-03-19
相关资源
最近更新 更多