【问题标题】:Scrape oddsportal information刮掉oddsportal信息
【发布时间】:2016-01-14 09:24:18
【问题描述】:

我正在使用 Python 3.5,实际上我正在专注于使用 BeautifulSoup/lxml/Selenium/PhantomJS 进行网页抓取

我只是想抓取我需要的所有数据,以便用 Python 代码破解。

我可以使用 BeautifulSoup 轻松地从静态 HTML url 中抓取信息。 我最近也发现了如何从动态 url 获取信息,使用 Chrome 上的网络选项卡并在 XHR 选项下查看出现的 HTTPrequest。 它通常给我从 JS 生成的 html 代码,在这种情况下,我可以继续使用正则表达式用 BS4 抓取它。 但实际上我正在从事一个关于从 www.oddsportal.com 获取赔率的新项目 在这种情况下,我真的很困惑如何在 XHR 下进行,因为我找不到有效的东西来继续抓取。 反复尝试,我发现我可以从这样的网址中抓取信息:

例如我的链接是: http://www.oddsportal.com/soccer/england/premier-league/tottenham-sunderland-UBtChnLa/

我发现非常有趣的链接是:

http://fb.oddsportal.com/feed/match/1-1-UBtChnLa-1-2-yjc11.dat?_=1452760985069

在这里你可以找到我需要的每一个赔率,但是当我尝试抓取它时,它给了我这样的错误:

globals.jsonpCallback

我知道我必须在 python 中学习 json 库,但我真的很困惑如何继续。 你能帮我解释一下吗?我真的很想专注于这类项目,所以我想了解更多,但我知道我对此的了解实际上很低。 感谢您提供任何信息!

【问题讨论】:

    标签: javascript parsing python-3.x beautifulsoup scrape


    【解决方案1】:

    您是否尝试过使用 xpath 抓取 html?您可能会发现它比使用正则表达式更容易。此外,您可能还想看看适用于 C# 的 HtmlAgilityPack,它非常适合网络抓取。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-08-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-07-21
      • 1970-01-01
      相关资源
      最近更新 更多