【发布时间】:2016-10-05 06:24:05
【问题描述】:
我正在尝试从此页面抓取数据:
如果我尝试使用 css 选择器和通常的 rvest 语法来抓取玩家的姓名:
names <- read_html("http://www.atpworldtour.com/en/tournaments/brisbane-international-presented-by-suncorp/339/2016/match-stats/r975/f324/match-stats?") %>%
html_nodes(".scoring-player-name") %>% sapply(html_text)
一切顺利。
不幸的是,如果我试图抓取下面的统计数据(首先发球得分,..)
使用选择器.stat-breakdown span 我无法检索任何数据。
我知道通常不建议使用 rvest 抓取动态创建的页面,但是我不明白为什么有些数据会被抓取而有些则不会。
【问题讨论】:
-
看起来您要查找的数据在此标记“//script[@id='matchStatsData']”内的 JSON 对象中,并根据请求将其加载到表中。显然有很多方法可以使用正则表达式,但它很混乱。
-
没办法(也许使用 Rselenium)?我愿意花时间