【发布时间】:2020-09-16 19:47:00
【问题描述】:
我需要将我的 delta Lake 文件移动到不同订阅的新 blobstore。有什么想法最好的方法是什么?
我将它们移动到 ADLS Gen2 存储,我认为以前的存储只是 blob 存储。这个 delta 湖由 databricks 作业每小时更新一次(但我可以在必要时暂停这些作业)。大小约为 3TB-5TB,我最初考虑暂停所有作业并使用 azcopy 移动文件并将作业指向那里。但我想检查在传输速度和成本方面可能更好的其他选项。
【问题讨论】:
-
Delta 在文件系统中存储了一堆 Parquet 和 JSON 文件。将 Delta 文件从一个文件系统/云移动到另一个文件系统/云与移动其他文件相同,例如 CSV 文件。您可以通过添加当前存储系统、文件目标以及到目前为止您尝试完成的任务来改进这个问题
-
我们决定使用 azcopy。我们的另一个要求是我们希望目标文件的所有者在服务主体之下。
标签: azure databricks delta-lake