【发布时间】:2020-09-13 18:06:01
【问题描述】:
我是网络抓取的新手,我不确定解决这个问题的最有效方法是什么。该项目主要使用 Python,但为了提高效率,我愿意使用其他语言。
想象一下网站上一些 js 驱动的价值,比如实时访问者数量,或者一些金融资产的价格。加载网站后,随着新信息的出现不断更新。我想要的是亚秒级采样一个这样的值,但自然地,我不想用请求轰炸服务器,这无论如何都会破坏准确性。
我正在考虑使用 selenium 或 PyQt webkit 加载网页,然后运行一个简单的循环来监视值并在发生更改时更新数据库。我不是在寻找可以自己解决的代码,但我不确定这是否是解决此问题的正确方法,或者是否有更有效的方法。
谢谢
【问题讨论】:
-
我会尝试查看网页的源代码,看看它从哪里获取数据。然后看看您是否可以轮询或订阅相同的提要。他们可能没有使用 CORS 等
标签: javascript python web-scraping