【发布时间】:2019-02-09 17:51:48
【问题描述】:
我无法从此页面下载 txt 文件:https://www.ceps.cz/en/all-data#RegulationEnergy(当您向下滚动并查看下载:txt、xls 和 xml)。
我的目标是创建将转到链接页面的抓取工具,例如单击 txt 链接并保存下载的文件。
我不知道如何解决的主要问题:
该文件没有我可以调用和下载的真实链接,但该链接是使用 JS 基于过滤器和文件类型创建的。
当我使用 Python 的
requests库并调用带有所有标头的链接时,它只会将我重定向到 https://www.ceps.cz/en/all-data。
尝试的方法:
使用 ParseHub 等抓取工具下载链接未按预期工作。但这个刮刀是最接近我想要得到的。
使用
requests库使用 HXR 请求用于下载文件的标头连接到链接,但它只是将我重定向到 https://www.ceps.cz/en/all-data。
如果您可以为此任务提出一些解决方案,请提前感谢您。 :-)
【问题讨论】:
标签: python selenium web-scraping python-requests