【发布时间】:2018-02-23 06:22:37
【问题描述】:
我在 azure datalake 存储中有几个 50GB+ csv 文件保存在分区文件夹下,例如 -
source/table/partition1/file1.csv
source/table/partition2/file2.csv
...
source/table/partitionN/fileN.csv
文件具有相同的结构。我想使用 Azure Powershell 命令将所有这些文件合并/附加在一起,并在新位置生成一个大文件,而不会损坏原始文件。
我尝试了以下命令 -
Join-AzureRmDataLakeStoreItem -AccountName "DatalakeStoreName"
-Paths "source/table/partition1/file1.csv",
"source/table/partition2/file2.csv"
-Destination "/Merged/table/final.csv"
但这破坏了原始文件并创建了新的 final.csv 我知道,有可用的 Azure 数据工厂,但它需要部署多个代码对象,我正在处理 7000 多个这样的提要,所以理想情况下,我想通过一个 powershell 脚本运行这个合并活动。
有没有人知道任何有效且不同的解决方案来保持原始文件完好无损?
【问题讨论】:
-
您可以先创建每个副本,然后执行连接到原始目标或其他目标吗?或者,您可以使用 Azure Data Lake Analytics 将源文件视为一个表并对其执行查询以生成新文件。
标签: powershell azure csv azure-powershell azure-data-lake