【问题标题】:Automated ETL of reporting based on 3rd Party Websites基于第三方网站的自动 ETL 报告
【发布时间】:2018-02-25 12:11:52
【问题描述】:

自动提取来自第三方客户和供应商网站的报告的首选方法是什么?

其他信息:

  • 不可能与这些第 3 方直接连接数据库
  • 没有可用于第 3 方网站的 API
  • 每个第 3 方网站都要求您登录,设置某些报告标准和参数,然后手动将报告导出为 CSV 或 excel

最终计划是安排以特定频率提取这些报告。该过程需要自动化,还应提供失败/成功加载操作的提示。

我希望这是一个高度定制的脚本,但如果有人知道我可以解决这个问题的托管 ETL/中间件解决方案,那也可以。

很想听听我们如何解决上述问题。

【问题讨论】:

  • phantomjs 带有模拟登录和 CSV 导出下载的 js 脚本?
  • 只是说,一定要检查这些网站的使用条款。这可能归结为webscraping,这可能并不总是被允许的。
  • 参考网站是我公司的供应商和客户,并已完全授权我使用他们的数据
  • @VitaliyFedorchenko - 有没有一个网站可以为我提供有关这个 PhantomJS 的更多信息?

标签: etl business-intelligence data-analysis data-science


【解决方案1】:

您可以使用 Apache Airflow。

它是由 AirBnB 创建的基于 Python 的 cron / ETL 框架。因此,使用 Python 脚本可以解决下载问题,而 Airflow 可以让您设置时间表。

这只是来自经验,但是:最好使用可以帮助您处理案例的软件而不是高度定制的脚本 - 因为最终,该脚本将变得如此复杂,将不再可维护。

【讨论】:

  • 对脚本变得过于复杂的好评论。我想在引入另一个 3rd 方系统与完全控制自定义脚本之间总是存在紧张关系
  • 另一个角度是:我们是想在未来扩展加载进程还是这只是另一个进程的小辅助工具?
猜你喜欢
  • 1970-01-01
  • 2015-09-25
  • 1970-01-01
  • 2019-02-02
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-01-02
  • 2021-02-07
相关资源
最近更新 更多