刮掉oddsportal信息答案

【问题标题】：Scrape oddsportal information刮掉oddsportal信息
【发布时间】：2016-01-14 09:24:18
【问题描述】：

我正在使用 Python 3.5，实际上我正在专注于使用 BeautifulSoup/lxml/Selenium/PhantomJS 进行网页抓取

我只是想抓取我需要的所有数据，以便用 Python 代码破解。

我可以使用 BeautifulSoup 轻松地从静态 HTML url 中抓取信息。我最近也发现了如何从动态 url 获取信息，使用 Chrome 上的网络选项卡并在 XHR 选项下查看出现的 HTTPrequest。它通常给我从 JS 生成的 html 代码，在这种情况下，我可以继续使用正则表达式用 BS4 抓取它。但实际上我正在从事一个关于从 www.oddsportal.com 获取赔率的新项目在这种情况下，我真的很困惑如何在 XHR 下进行，因为我找不到有效的东西来继续抓取。反复尝试，我发现我可以从这样的网址中抓取信息：

例如我的链接是： http://www.oddsportal.com/soccer/england/premier-league/tottenham-sunderland-UBtChnLa/

我发现非常有趣的链接是：

http://fb.oddsportal.com/feed/match/1-1-UBtChnLa-1-2-yjc11.dat?_=1452760985069

在这里你可以找到我需要的每一个赔率，但是当我尝试抓取它时，它给了我这样的错误：

globals.jsonpCallback

我知道我必须在 python 中学习 json 库，但我真的很困惑如何继续。你能帮我解释一下吗？我真的很想专注于这类项目，所以我想了解更多，但我知道我对此的了解实际上很低。感谢您提供任何信息！

【问题讨论】：

标签： javascript parsing python-3.x beautifulsoup scrape

【解决方案1】：

您是否尝试过使用 xpath 抓取 html？您可能会发现它比使用正则表达式更容易。此外，您可能还想看看适用于 C# 的 HtmlAgilityPack，它非常适合网络抓取。

【讨论】：