【发布时间】:2018-07-24 12:18:42
【问题描述】:
我有兴趣在basketball-reference.com 上提取球员表。我已经成功提取了特定球员(例如勒布朗詹姆斯)的每场比赛统计表,这是网页上列出的第一个表格。但是,页面上有 10 多个表格我似乎无法提取。我已经能够通过几种不同的方式将表格放入 R 中。一、使用rvest包:
library(rvest)
lebron <- "https://www.basketball-reference.com/players/j/jamesle01.html"
lebron_webpage <- read_html(lebron)
lebron_table <- html_table(lebron_webpage, fill = TRUE)
lebron_pergame <- data.frame(lebron_table)
现在,我在一个不错的数据框中获得了勒布朗职业生涯的场均数据。我还可以结合使用 XML 和 RCurl 包来读取同一张表。
library(RCurl)
library(XML)
lebron_url <- paste0(lebron)
lebron_url <- getURL(lebron_url)
lebron_table <- readHTMLTable(lebron_url, which = 1)
如果我想在页面上的其他表格中阅读,问题就来了。例如,页面上的下一个表是总计。我尝试使用 CSS 选择器来选择我想要读取的特定表格,但我无法让它工作。我也尝试右键单击,检查页面上的元素并复制表格的 XPath,但我也无法让它工作。我花了很多时间在谷歌上研究这个问题,但似乎找不到任何解决这个问题的方法。任何帮助将不胜感激!提前致谢!
【问题讨论】:
标签: r xml web-scraping rvest rcurl