【发布时间】:2017-10-21 17:00:01
【问题描述】:
在我有时间制定摄取策略和流程设置之前,我开始收集最终将通过流分析作业的数据。现在,我坐在一个 Azure blob 存储容器上,其中包含超过 500,000 个 blob(无文件夹组织),另一个包含 300,000 个,其他一些包含 10,000 - 90,000 个。
生产收集过程现在以YYYY-MM-DD/HH 格式将这些 blob 写入不同的容器,但这只是未来的发展方向。我拥有的这些存档数据对于进入我的系统至关重要,我想稍微修改一下现有生产 ASA 作业的输入,以便我可以在查询、函数和其他依赖项中利用相同的逻辑。
我知道 ASA 不喜欢超过几百 / 千的批次,所以我试图找到一种方法来暂存我的数据,以便在 ASA 下正常工作。这将是一次性运行...
一个想法是编写一个脚本来查看每个 blob,查看 blob 中的时间戳并重新创建 YYYY-MM-DD/HH 文件夹设置,但根据我的经验,当 blob 的 lastModified 时间不存在时,ASA 作业将失败'不匹配它所在的文件夹...
有什么建议可以解决这个问题吗?
编辑: 未能提及 (1) 这些容器中没有文件夹...所有 blob 都位于容器的根目录中,并且 (2) 我在 blob 上的 LastModifiedTime 是 no更有用或有意义。后者的原因是这些 blob 是从多个其他容器中收集的,并使用 Azure CLI copy-batch 命令合并在一起。
【问题讨论】:
标签: azure azure-stream-analytics stream-analytics