【发布时间】:2016-08-12 04:13:18
【问题描述】:
我正在尝试从网站获取数据,感谢帮助我可以访问以下脚本:
require(httr)
require(rvest)
res <- httr::POST(url = "http://apps.kew.org/wcsp/advsearch.do",
body = list(page = "advancedSearch",
AttachmentExist = "",
family = "",
placeOfPub = "",
genus = "Arctodupontia",
yearPublished = "",
species ="scleroclada",
author = "",
infraRank = "",
infraEpithet = "",
selectedLevel = "cont"),
encode = "form")
pg <- content(res, as="parsed")
lnks <- html_attr(html_node(pg,"td"), "href")
但是,在某些情况下,例如上面的示例,它不会检索到正确的链接,因为出于某种原因,html_attr 在 html_node 检测到的节点中找不到 url(“href”)。到目前为止,我已经尝试了不同的 CSS 选择器,例如“td”、“a.onwardnav”和“.plantname”,但它们都没有生成 html_attr 可以正确处理的对象。 有什么提示吗?
【问题讨论】:
标签: css r web-scraping rvest httr