【发布时间】:2021-05-05 15:24:39
【问题描述】:
我正在使用 rvest 抓取网站 (here)。我正在尝试获取列出的所有 582 个人的 URL。例如,其中一个人的 URL 是here。
一旦我进入一个单独的 URL,我就能够成功地抓取我正在寻找的信息。这是一个例子:
link = "https://www.supercluster.com/astronauts/jessica-u.-meir?sort=&ascending=false&life%20form=human&"
page = read_html(link)
# Time in space and spacewalk time
page %>% html_nodes("span.pr015")
# Gender
page %>% html_nodes("a.under")
# Cross Karman Line
page %>% html_nodes("div.pt1.pb0.h5.caps.cw")
关于如何使用rvest从主页获取582个URL列表有什么建议吗?我尝试使用 SelectorGadget 并检查源代码 - 但无济于事。感谢您的帮助!
【问题讨论】:
-
你在主页上尝试了什么,你得到了什么?
-
查看检查器中的网络选项卡。此数据是动态加载的。您可能可以在网络选项卡中找到正确的请求,直接使用 rvest 下载 JSON 数据。
标签: r web-scraping rvest rselenium