【问题标题】:Is there any way to replicate realtime streaming from azure blob storage to to azure my sql有什么方法可以将实时流从 azure blob 存储复制到 azure my sql
【发布时间】:2022-01-17 13:35:55
【问题描述】:

我们基本上可以使用 databricks 作为中间,但我被困在 python 脚本上,每 30 秒将数据从 blob 存储复制到 azure 我的 sql,我们在这里使用 CSV 文件。脚本需要将 csv 存储在当前时间戳中。

【问题讨论】:

  • 请提供足够的代码,以便其他人更好地理解或重现问题。

标签: python azure apache-spark google-cloud-platform databricks


【解决方案1】:

spark/databricks 中没有针对 mysql 的就绪流选项,因为它不是流源/接收器技术。

您可以在数据块中使用 writeStream .forEach(df).forEachBatch(df) 选项。这样它会创建临时数据框,您可以将其保存在您选择的位置(因此写入 mysql)。

我个人会选择简单的解决方案。在 Azure 数据因子中,y 足以创建两个数据集(甚至可以没有它) - 一个 mysql、一个 blob 并使用带有复制活动的管道来传输数据。

【讨论】:

  • 非常感谢您的回复,但我认为我的问题并不清楚实际上我们并没有流式传输实时数据,我们只是通过已经搜索日志 csv 文件并将其更改为当前时间戳并传输它来模拟它azure my sql 每 30 秒一共十个 csv 文件。提前致谢
猜你喜欢
  • 1970-01-01
  • 2020-08-18
  • 2016-02-12
  • 2019-04-01
  • 2017-05-06
  • 2018-08-08
  • 2022-10-04
  • 2017-07-23
  • 2019-05-26
相关资源
最近更新 更多