【发布时间】:2012-01-22 22:06:29
【问题描述】:
我最近一直在学习 Python,并且正在着手构建一个网络爬虫。这一点都不花哨。其唯一目的是从博彩网站获取数据并将这些数据放入 Excel。
大多数问题都是可以解决的,但我遇到了一些麻烦。但是,我在一个问题上遇到了巨大的障碍。如果一个站点加载了一个马匹表格并列出了当前的投注价格,则此信息不在任何源文件中。线索是这些数据有时是实时的,数字显然是从某个远程服务器更新的。我 PC 上的 HTML 有一个漏洞,他们的服务器正在推送我需要的所有有趣数据。
现在我对动态网络内容的体验很低,所以这件事让我难以理解。
我认为 Java 或 Javascript 是一个关键,这经常弹出。
刮板只是一个赔率比较引擎。有些网站有 API,但对于那些没有的网站,我需要它。我正在使用带有 Python 2.7 的 scrapy 库
如果这个问题过于开放,我深表歉意。简而言之,我的问题是:如何使用scrapy来抓取这些动态数据,以便我可以使用它?这样我就可以实时抓取这些投注赔率数据?
【问题讨论】:
-
我怎样才能得到这些数据,动态的和实时的数据?
-
如果你的页面有javascript,Try this
-
尝试一些
Firefox扩展如httpFox或liveHttpHeaders并加载使用ajax 请求的页面。 Scrapy 不会自动识别 ajax 请求,您必须手动搜索适当的 ajax URL,然后使用该 URL 进行请求。 -
干杯,我会给 Firefox 扩展一个 wizz
-
有许多开源解决方案。但是,如果您正在寻找一种简单快捷的方法来执行此操作,尤其是对于大型工作负载,请查看 SnapSearch (snapsearch.io)。它是为需要搜索引擎可抓取性的 JS、HTML5 和 SPA 网站构建的。试试这个演示(如果有空内容,这意味着该网站实际上没有返回任何正文内容,可能意味着 301 重定向)。
标签: javascript python ajax screen-scraping scrapy