【问题标题】:How to list files in Blob azure using spark R如何使用 spark R 在 Blob azure 中列出文件
【发布时间】:2018-12-05 05:56:45
【问题描述】:

我在带有基于 Azure blob 存储的 HDi 集群的 Rstudio 服务器上使用 SparkR。我正在尝试列出 Blob 容器中包含的文件。 我尝试了:list.files(pattern = ".*.csv"),就像我们在 R 中所做的那样,但它没有向我们显示任何内容,并且出现了错误。

有谁知道如何从 R 列出 Blob 容器中的文件?

【问题讨论】:

  • 你是怎么做到的? AzureBlob 上的 SparkR
  • 我在 Azure 上使用 RStudio Server

标签: r apache-spark azure-storage azure-blob-storage


【解决方案1】:

列表文件函数中有递归标志

files <- list.files(path = "parent-folder", pattern = "\\.csv$", recursive = TRUE)

设置path 参数可能更安全,以防脚本以/ 或其他方式运行(有时R Studio 在意外路径中运行脚本)。

【讨论】:

  • 它是否也适用于部署在 blob 存储上的 azure 集群上的 rstudio 服务器上的 sparkR?
  • 我用 R studio 测试过。它应该是跨平台通用的。集群机器需要共享文件系统才能正常工作。
  • 我们试过了,遗憾的是它不能在使用 blob 作为存储部署的 HDI 集群上与 Rstudio 一起使用。
猜你喜欢
  • 1970-01-01
  • 2018-09-05
  • 2015-04-17
  • 2018-11-29
  • 2018-01-23
  • 2022-11-28
  • 1970-01-01
  • 2018-03-07
  • 2021-12-18
相关资源
最近更新 更多