为流分析导入准备存档数据答案

【问题标题】：Preparing archive data for Stream Analytics Import为流分析导入准备存档数据
【发布时间】：2017-10-21 17:00:01
【问题描述】：

在我有时间制定摄取策略和流程设置之前，我开始收集最终将通过流分析作业的数据。现在，我坐在一个 Azure blob 存储容器上，其中包含超过 500,000 个 blob（无文件夹组织），另一个包含 300,000 个，其他一些包含 10,000 - 90,000 个。

生产收集过程现在以YYYY-MM-DD/HH 格式将这些 blob 写入不同的容器，但这只是未来的发展方向。我拥有的这些存档数据对于进入我的系统至关重要，我想稍微修改一下现有生产 ASA 作业的输入，以便我可以在查询、函数和其他依赖项中利用相同的逻辑。

我知道 ASA 不喜欢超过几百 / 千的批次，所以我试图找到一种方法来暂存我的数据，以便在 ASA 下正常工作。这将是一次性运行...

一个想法是编写一个脚本来查看每个 blob，查看 blob 中的时间戳并重新创建 YYYY-MM-DD/HH 文件夹设置，但根据我的经验，当 blob 的 lastModified 时间不存在时，ASA 作业将失败'不匹配它所在的文件夹...

有什么建议可以解决这个问题吗？

编辑： 未能提及 (1) 这些容器中没有文件夹...所有 blob 都位于容器的根目录中，并且 (2) 我在 blob 上的 LastModifiedTime 是 no更有用或有意义。后者的原因是这些 blob 是从多个其他容器中收集的，并使用 Azure CLI copy-batch 命令合并在一起。

【问题讨论】：

标签： azure azure-stream-analytics stream-analytics

【解决方案1】：

你可以试试下面吗？

在两个不同的作业中执行此处理，一个用于具有日期分区的文件夹（例如 partitionedJob）。另一个用于没有任何日期分区的旧 blob（比如 RefillJob）
由于 RefillJob 具有固定数量的 blob，因此在 System.Timestamp 上放置一个谓词以确保它只处理旧事件。使用至少 6 个 SU 启动此作业并运行它，直到处理完所有事件。您可以通过查看 LastOutputProcessedTime 或查看输入事件计数或检查输出源来确认。完成此检查后，停止作业。不再需要这项工作。
使用时间戳启动 partitionedJob > RefillJob。这假设时间戳的文件夹存在。

【讨论】：

我不清楚 partitionedJob 或 refillJob.. 那些是什么？目前，文件夹中没有任何内容......它只是一个容器中的 500,000 个 blob。另外...此数据是从多个来源收集的，因此它们在彼此的 2 小时窗口内都具有相同的 LastModifiedTime。这是因为 blob 是从多个来源复制的……所以 LastModifiedTime 现在毫无意义。我一直在探索使用分区，像 BATCH01 一样一次移动 500 个 blob => 一个文件夹，然后创建查询，以便将这些文件夹视为分区。
这 500000 个 blob 中的事件的应用时间是多少？该时间与 LastModifiedTime 之间的最大差异是多少？
对于 LastModifiedTime，只有大约 6-8 小时（就像我上面说的，我们有两个或三个 Azure CLI copy-batch 命令从不同的容器同时运行，将它们聚合在一起......我们这样做了在我们考虑 ASA 之前，现在才意识到它的含义）。在每个 blob 中，都有一个超过 6 个月的时间戳字段...我更愿意使用它，但这里不是一个选项。
您的查询是什么样的？我问是因为，在“timestamp by”表达式中使用时间戳字段不是您提到的选项，因为延迟到达容限是强制执行的，最大值是
ATM 查询未写...只是基于我之前遇到的其他查询问题。我愿意接受任何建议。这将是一个一次性的过程，因为当前处理当前数据的过程没有遇到这个问题，因为它已正确分区到文件夹中......所以我只是试图将大量存档数据放入 Azure 表中当前用于存储当前在这些归档 blob 中的数据。导入后，我将无法使用此工作。