【发布时间】:2022-11-13 17:24:31
【问题描述】:
我最近一直在学习 Python,并且正在着手构建一个网络爬虫。这一点都不花哨。它的唯一目的是从博彩网站获取数据并将这些数据输入 Excel。
大多数问题都是可以解决的,而且我遇到了一些麻烦。但是,我在一个问题上遇到了巨大的障碍。如果一个网站载入一张马匹表并列出当前投注价格,则此信息不在任何源文件中。线索是这些数据有时是实时的,数字显然是从某个远程服务器更新的。我 PC 上的 HTML 只是有一个漏洞,他们的服务器在其中推送我需要的所有有趣数据。
现在我对动态 Web 内容的经验很低,所以这件事让我难以理解。
我认为 Java 或 Javascript 是一个关键,这个经常弹出。
刮板只是一个赔率比较引擎。有些网站有 API,但对于那些没有的网站,我需要它。我正在使用带有 Python 2.7 的 scrapy 库
如果这个问题过于开放,我深表歉意。简而言之,我的问题是:如何使用 scrapy 来抓取这个动态数据,以便我可以使用它?这样我就可以实时抓取这个投注赔率数据?
【问题讨论】:
-
我怎样才能得到这些数据,动态和实时的数据?
-
如果你的页面有javascript,Try this
-
尝试一些
Firefox扩展名,如httpFox或liveHttpHeaders并加载使用 ajax 请求的页面。 Scrapy 不会自动识别 ajax 请求,你必须手动搜索合适的 ajax URL,然后用它来请求。 -
干杯,我会给 Firefox 扩展一个 wizz
-
有许多开源解决方案。但是,如果您正在寻找一种简单快捷的方法来执行此操作,尤其是对于大型工作负载,请查看 SnapSearch (snapsearch.io)。它是为需要搜索引擎可抓取性的 JS、HTML5 和 SPA 网站而构建的。尝试演示(如果有空内容,这意味着该站点实际上没有返回任何正文内容,可能意味着 301 重定向)。
标签: javascript python ajax screen-scraping scrapy