【问题标题】:Webscraping soccer data returns nothing网络抓取足球数据什么也没返回
【发布时间】:2018-06-25 14:20:55
【问题描述】:

我想从https://www.whoscored.com/Regions/247/Tournaments/36/Seasons/5967/Stages/15737/Fixtures/International-FIFA-World-Cup-2018网站上抓取比赛结果表

我正在使用带有以下代码的 rvest 包:

library(rvest)

url.tournament <- "https://www.whoscored.com/Regions/247/Tournaments/36/Seasons/5967/Stages/15737/Fixtures/International-FIFA-World-Cup-2018"
df.tournament <- read_html(url.tournament) %>%
                  html_nodes(xpath='//*[@id="tournament-fixture-wrapper"]') %>%
                  html_nodes("table")
                  html_table()

虽然没有提取任何元素。

【问题讨论】:

    标签: r rvest


    【解决方案1】:

    查看网站的源代码,您会发现该表格实际上并不存在于 HTML 源代码中——它是使用 JavaScript 动态生成的。这就是为什么您的 XPath 查询返回一个空的 &lt;div&gt;

    因此,在这种情况下,您不能依赖 {rvest},您需要使用可以解释 JavaScript 的动态抓取工具,例如 {RSelenium}

    【讨论】:

    • 我尝试了几个版本的 R 安装错误:包“RSelenium”不可用(适用于 R 版本 3.4.1)
    • @user 您需要按照我给您的链接中的安装说明进行操作,因为由于上游问题,该软件包最近已从 CRAN 中删除。您还需要首先按照其页面上的说明安装{wdman} dependency
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2022-01-21
    • 1970-01-01
    • 1970-01-01
    • 2021-12-06
    • 1970-01-01
    • 1970-01-01
    • 2021-12-17
    相关资源
    最近更新 更多