【发布时间】:2021-02-25 15:38:09
【问题描述】:
假设我有一个数据分析问题(例如 Iris 数据集之类的 csv 数据),我想用 Pandas 和 Python 进行一些数据操作和处理。我的 Python 脚本已经编写好了,每天当我收到一个 csv 文件时,我希望在 Azure 云中使用我的 Python 脚本处理这些数据,并将结果写入 Azure Blob 存储。
现在我遇到了这些链接/方法来解决这个问题:
- Run Python Scripts via Data Factory using Azure Batch
- Run Databricks-Notebook activity in Data Factory
- Run Python Scripts via Azure Databricks Python activity in Data Factory
是否有人对上述两种运行 python 脚本的方法有一定的经验,可能有一些建议和需要考虑的事项(优点/缺点)?
此问题的目标:选择哪种方法或您更喜欢哪种方法:a) Azure Batch Service 或 b) Azure Databricks 以及为什么?
选择合适服务的注意事项:
- 价格
- 设置解决方案的便利性
- 监控可能性
- 如果数据增长或脚本逻辑随着时间的推移变得更加复杂,则可以进行扩展
- 易于与其他服务(例如存储)集成
- 库和框架方面的灵活性(例如,稍后我们会说它可能会成为数据科学问题,我想在我的分析管道中添加一些 h2o 机器学习模型)
- (也许更多我没有考虑...?)
【问题讨论】:
-
抱歉,此类问题不属于本网站的主题。
标签: python azure databricks azure-databricks azure-batch