【问题标题】:Azure Batch Service vs. Azure Databricks for Python Job [closed]适用于 Python 作业的 Azure Batch Service 与 Azure Databricks [关闭]
【发布时间】:2021-02-25 15:38:09
【问题描述】:

假设我有一个数据分析问题(例如 Iris 数据集之类的 csv 数据),我想用 Pandas 和 Python 进行一些数据操作和处理。我的 Python 脚本已经编写好了,每天当我收到一个 csv 文件时,我希望在 Azure 云中使用我的 Python 脚本处理这些数据,并将结果写入 Azure Blob 存储。

现在我遇到了这些链接/方法来解决这个问题:

是否有人对上述两种运行 python 脚本的方法有一定的经验,可能有一些建议和需要考虑的事项(优点/缺点)?

此问题的目标:选择哪种方法或您更喜欢哪种方法:a) Azure Batch Service 或 b) Azure Databricks 以及为什么?

选择合适服务的注意事项:

  • 价格
  • 设置解决方案的便利性
  • 监控可能性
  • 如果数据增长或脚本逻辑随着时间的推移变得更加复杂,则可以进行扩展
  • 易于与其他服务(例如存储)集成
  • 库和框架方面的灵活性(例如,稍后我们会说它可能会成为数据科学问题,我想在我的分析管道中添加一些 h2o 机器学习模型)
  • (也许更多我没有考虑...?)

【问题讨论】:

  • 抱歉,此类问题不属于本网站的主题。

标签: python azure databricks azure-databricks azure-batch


【解决方案1】:

很难回答您的问题,因为您的文件和转换的数量和复杂性以及财务限制/执行时间没有描述(例如您有多少行和列?),我建议您采取看看数据架构技术:

https://docs.microsoft.com/en-us/azure/architecture/data-guide/technology-choices/batch-processing

这将取决于密钥选择标准和能力矩阵中描述的几个因素。

我个人会使用 Azure 函数来处理 CSV 并将其上传到 blob 存储以进行简单的 CSV 处理,否则我会使用数据工厂。

对于 azure 函数解决方案,您可以在 python 脚本中划分函数并将它们作为单独的编排函数或您的设计模式(链接或扇出/输入)运行:主要优势是模块化和成本以及无服务器优势:

https://docs.microsoft.com/en-us/azure/azure-functions/durable/quickstart-python-vscode

https://docs.microsoft.com/en-us/azure/azure-functions/durable/durable-functions-overview?tabs=csharp

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2015-09-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-10-12
    • 1970-01-01
    • 2022-01-27
    • 1970-01-01
    相关资源
    最近更新 更多