网络抓取足球数据什么也没返回

【问题标题】：Webscraping soccer data returns nothing网络抓取足球数据什么也没返回
【发布时间】：2018-06-25 14:20:55
【问题描述】：

我想从https://www.whoscored.com/Regions/247/Tournaments/36/Seasons/5967/Stages/15737/Fixtures/International-FIFA-World-Cup-2018网站上抓取比赛结果表

我正在使用带有以下代码的 rvest 包：

library(rvest)

url.tournament <- "https://www.whoscored.com/Regions/247/Tournaments/36/Seasons/5967/Stages/15737/Fixtures/International-FIFA-World-Cup-2018"
df.tournament <- read_html(url.tournament) %>%
                  html_nodes(xpath='//*[@id="tournament-fixture-wrapper"]') %>%
                  html_nodes("table")
                  html_table()

虽然没有提取任何元素。

【问题讨论】：

标签： r rvest

【解决方案1】：

查看网站的源代码，您会发现该表格实际上并不存在于 HTML 源代码中——它是使用 JavaScript 动态生成的。这就是为什么您的 XPath 查询返回一个空的 <div>。

因此，在这种情况下，您不能依赖 {rvest}，您需要使用可以解释 JavaScript 的动态抓取工具，例如 {RSelenium}。

【讨论】：

我尝试了几个版本的 R 安装错误：包“RSelenium”不可用（适用于 R 版本 3.4.1）
@user 您需要按照我给您的链接中的安装说明进行操作，因为由于上游问题，该软件包最近已从 CRAN 中删除。您还需要首先按照其页面上的说明安装{wdman} dependency。