【发布时间】:2018-01-17 11:35:02
【问题描述】:
我正在使用 Azure 数据工厂将数据从 Azure Data Lake Store 复制到 Cosmos DB 中的集合。我们将在数据湖中有几千个 JSON 文件,每个 JSON 文件大约为 . 3 GB。我正在使用数据工厂的复制活动,在初始运行中,加载一个文件需要 3.5 小时,其中集合设置为 10000 RU/s,数据工厂使用默认设置。现在我已将其扩展到 50000 RU/s,将 cloudDataMovementUnits 设置为 32 并将 writeBatchSize 设置为 10,看看它是否提高了速度,现在加载相同的文件需要 2.5 小时。加载数千个文件的时间仍然很长。
有没有更好的方法来做到这一点?
【问题讨论】:
-
您是说您正在尝试将单个文档加载到 GB 大小的 Cosmos 中吗? Cosmos 中文档的最大大小为 2MB
-
不,如果我不清楚,对不起。每个文件包含数百万个 JSON 文档。 JSON 文档包含位置数据,我们需要进行空间计算,这就是我们选择 Cosmos DB 的原因。
标签: azure azure-cosmosdb azure-data-factory azure-data-lake