【发布时间】:2018-02-25 12:11:52
【问题描述】:
自动提取来自第三方客户和供应商网站的报告的首选方法是什么?
其他信息:
- 不可能与这些第 3 方直接连接数据库
- 没有可用于第 3 方网站的 API
- 每个第 3 方网站都要求您登录,设置某些报告标准和参数,然后手动将报告导出为 CSV 或 excel
最终计划是安排以特定频率提取这些报告。该过程需要自动化,还应提供失败/成功加载操作的提示。
我希望这是一个高度定制的脚本,但如果有人知道我可以解决这个问题的托管 ETL/中间件解决方案,那也可以。
很想听听我们如何解决上述问题。
【问题讨论】:
-
phantomjs 带有模拟登录和 CSV 导出下载的 js 脚本?
-
只是说,一定要检查这些网站的使用条款。这可能归结为webscraping,这可能并不总是被允许的。
-
参考网站是我公司的供应商和客户,并已完全授权我使用他们的数据
-
@VitaliyFedorchenko - 有没有一个网站可以为我提供有关这个 PhantomJS 的更多信息?
-
@WesleyJeftha phantomjs.org/documentation
标签: etl business-intelligence data-analysis data-science