【问题标题】:Preparing archive data for Stream Analytics Import为流分析导入准备存档数据
【发布时间】:2017-10-21 17:00:01
【问题描述】:

在我有时间制定摄取策略和流程设置之前,我开始收集最终将通过流分析作业的数据。现在,我坐在一个 Azure blob 存储容器上,其中包含超过 500,000 个 blob(无文件夹组织),另一个包含 300,000 个,其他一些包含 10,000 - 90,000 个。

生产收集过程现在以YYYY-MM-DD/HH 格式将这些 blob 写入不同的容器,但这只是未来的发展方向。我拥有的这些存档数据对于进入我的系统至关重要,我想稍微修改一下现有生产 ASA 作业的输入,以便我可以在查询、函数和其他依赖项中利用相同的逻辑。

我知道 ASA 不喜欢超过几百 / 千的批次,所以我试图找到一种方法来暂存我的数据,以便在 ASA 下正常工作。这将是一次性运行...

一个想法是编写一个脚本来查看每个 blob,查看 blob 中的时间戳并重新创建 YYYY-MM-DD/HH 文件夹设置,但根据我的经验,当 blob 的 lastModified 时间不存在时,ASA 作业将失败'不匹配它所在的文件夹...

有什么建议可以解决这个问题吗?

编辑: 未能提及 (1) 这些容器中没有文件夹...所有 blob 都位于容器的根目录中,并且 (2) 我在 blob 上的 LastModifiedTime 是 no更有用或有意义。后者的原因是这些 blob 是从多个其他容器中收集的,并使用 Azure CLI copy-batch 命令合并在一起。

【问题讨论】:

    标签: azure azure-stream-analytics stream-analytics


    【解决方案1】:

    你可以试试下面吗?

    1. 在两个不同的作业中执行此处理,一个用于具有日期分区的文件夹(例如 partitionedJob)。另一个用于没有任何日期分区的旧 blob(比如 RefillJob
    2. 由于 RefillJob 具有固定数量的 blob,因此在 System.Timestamp 上放置一个谓词以确保它只处理旧事件。使用至少 6 个 SU 启动此作业并运行它,直到处理完所有事件。您可以通过查看 LastOutputProcessedTime 或查看输入事件计数或检查输出源来确认。完成此检查后,停止作业。不再需要这项工作。

    3. 使用时间戳启动 partitionedJob > RefillJob。这假设时间戳的文件夹存在。

    【讨论】:

    • 我不清楚 partitionedJobrefillJob.. 那些是什么?目前,文件夹中没有任何内容......它只是一个容器中的 500,000 个 blob。另外...此数据是从多个来源收集的,因此它们在彼此的 2 小时窗口内都具有相同的 LastModifiedTime。这是因为 blob 是从多个来源复制的……所以 LastModifiedTime 现在毫无意义。我一直在探索使用分区,像 BATCH01 一样一次移动 500 个 blob => 一个文件夹,然后创建查询,以便将这些文件夹视为分区。
    • 这 500000 个 blob 中的事件的应用时间是多少?该时间与 LastModifiedTime 之间的最大差异是多少?
    • 对于 LastModifiedTime,只有大约 6-8 小时(就像我上面说的,我们有两个或三个 Azure CLI copy-batch 命令从不同的容器同时运行,将它们聚合在一起......我们这样做了在我们考虑 ASA 之前,现在才意识到它的含义)。在每个 blob 中,都有一个超过 6 个月的时间戳字段...我更愿意使用它,但这里不是一个选项。
    • 您的查询是什么样的?我问是因为,在“timestamp by”表达式中使用时间戳字段不是您提到的选项,因为延迟到达容限是强制执行的,最大值是
    • ATM 查询未写...只是基于我之前遇到的其他查询问题。我愿意接受任何建议。这将是一个一次性的过程,因为当前处理当前数据的过程没有遇到这个问题,因为它已正确分区到文件夹中......所以我只是试图将大量存档数据放入 Azure 表中当前用于存储当前在这些归档 blob 中的数据。导入后,我将无法使用此工作。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-06-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-05-24
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多