【问题标题】:How to transfer all the contents in one azure data lake container to another using databricks?如何使用 databricks 将一个 azure 数据湖容器中的所有内容传输到另一个容器?
【发布时间】:2021-03-18 17:38:11
【问题描述】:

我有一个名为 test-container 的容器,我想将 test-container 中的所有文件和文件夹移至 test2-container。如何使用 pyspark 在数据块笔记本中执行此操作?

【问题讨论】:

  • 我们无法帮助您设计代码。您可以通过直接激活复制来实现。你会考虑还是坚持使用笔记本?

标签: azure pyspark databricks azure-databricks azure-data-lake


【解决方案1】:

您需要挂载两个容器,假设容器不是公共的,(/ 如果它是根文件夹)然后使用 dbfs cli 在之前创建的挂载点之间移动文件/文件夹。

dbfs mv /mnt/folder1 /mnt/folder2.

如果您将容器的访问级别更改为“容器(容器和 blob 的匿名读取访问权限)”,您应该能够直接移动文件,甚至无需创建挂载。

在 Databricks 笔记本中,代码应该是这样的 -

%fs mv /mnt/folder1 /mnt/folder2

【讨论】:

  • 我已经安装了容器,我想知道更多是否可以使用代码,最好是 pyspark 将 1 个已安装容器中的所有文件和文件夹移动到另一个容器。我知道我可以在 azure storage explorer 中复制和粘贴,但我想看看是否可以使用 python spark 这样做。
  • 这不适用于 databricks 笔记本吗? %fs mv /mnt/folder1 /mnt/folder2
  • 哇,我不敢相信做这件事这么容易。那工作得很好。非常感谢!
猜你喜欢
  • 2019-11-13
  • 1970-01-01
  • 2015-09-19
  • 1970-01-01
  • 2019-04-29
  • 1970-01-01
  • 2020-08-23
  • 2020-08-02
  • 1970-01-01
相关资源
最近更新 更多