【问题标题】:Move delta lake files from one storage to another将 delta Lake 文件从一个存储移动到另一个存储
【发布时间】:2020-09-16 19:47:00
【问题描述】:

我需要将我的 delta Lake 文件移动到不同订阅的新 blobstore。有什么想法最好的方法是什么?

我将它们移动到 ADLS Gen2 存储,我认为以前的存储只是 blob 存储。这个 delta 湖由 databricks 作业每小时更新一次(但我可以在必要时暂停这些作业)。大小约为 3TB-5TB,我最初考虑暂停所有作业并使用 azcopy 移动文件并将作业指向那里。但我想检查在传输速度和成本方面可能更好的其他选项。

【问题讨论】:

  • Delta 在文件系统中存储了一堆 Parquet 和 JSON 文件。将 Delta 文件从一个文件系统/云移动到另一个文件系统/云与移动其他文件相同,例如 CSV 文件。您可以通过添加当前存储系统、文件目标以及到目前为止您尝试完成的任务来改进这个问题
  • 我们决定使用 azcopy。我们的另一个要求是我们希望目标文件的所有者在服务主体之下。

标签: azure databricks delta-lake


【解决方案1】:

最好的方法就是使用 Azure 数据工厂。在那里,您可以指向不同的位置并快速移动文件。

【讨论】:

  • 谢谢,去看看 adf 并检查它的执行情况。完成后将接受此作为答案。
猜你喜欢
  • 2016-02-10
  • 2020-06-09
  • 2020-07-26
  • 2022-01-11
  • 1970-01-01
  • 2013-01-02
  • 1970-01-01
  • 2012-04-15
  • 1970-01-01
相关资源
最近更新 更多