【发布时间】:2015-07-27 04:16:05
【问题描述】:
我正在尝试检索 2012 年奥运会维基百科中的奖牌表。
library(rvest)
library(magrittr)
url <- "https://en.wikipedia.org/wiki/United_States_at_the_2012_Summer_Olympics"
xpath0 <- '//*[@id="mw-content-text"]/table[1]'
xpath1 <- '//*[@id="mw-content-text"]/table[2]'
xpath2 <- '//*[@id="mw-content-text"]/table[2]/tbody/tr/td[1]'
xpath3 <- '//*[@id="mw-content-text"]/table[2]/tbody/tr/td[1]/table'
tb <- url %>%
html() %>%
html_nodes(xpath=xpath0) %>%
html_nodes("") %>%
html_table()
xpath0 或 xpath1 返回错误
Error in parse_simple_selector(stream) :
Expected selector, got <EOF at 1>
xpath2 和 xpath3 返回空列表。
同时我尝试使用 Selectorgadget (https://cran.r-project.org/web/packages/rvest/vignettes/selectorgadget.html) 来指向确切的元素。我得到了
//td[((((count(preceding-sibling::) + 1) = 1) and parent::)] | //*[包含(concat(“”,@class,“”),concat(“”, "headerSortDown", " "))]
和错误
parse_simple_selector(stream) 中的错误: 预期的选择器,得到了
非常感谢任何帮助。
乔亚
【问题讨论】:
-
我想要的表格是“Medalists”,标题有奖牌名称体育赛事日期的表格。
标签: html r xpath rvest magrittr