【发布时间】:2021-09-07 15:05:52
【问题描述】:
我正在尝试从网站“https://politi.dk/doegnrapporter”中抓取网址。我在 R 中使用 rvest 和 dplyr,但我的代码输出 {{article.Link}} 而不是实际链接。我认为这与加载链接网站的网站的 html 代码中的一些 Java 脚本有关,但是当我在 R 中抓取 url 时如何抵消这种情况。
到目前为止我的代码是:
library(rvest)
page <- read_html("https://politi.dk/doegnrapporter")
t <- page %>% html_nodes("a.newsResultLink") %>% html_attr('href')
t
[1] "{{article.Link}}"
所以不是{{article.Link}},我想要一个超链接的url列表,例如“https://politi.dk/oestjyllands-politi/doegnrapporter/doegnrapport07092021/2021/09/07”,“https://politi.dk/nordsjaellands-politi/doegnrapporter/nordsjaellands-politi-uddrag-af-doegnrapport-0607 -september-2021/2021/09/07" 等
【问题讨论】:
-
您要准确提取什么?
-
来自css元素的url(即网站的超链接)。
-
为了收集网站引用的所有文章的 url 列表。
-
该网页使用 Angular javascript 库。
rvest之类的包无法运行 javascript 代码。如果你需要抓取这样的页面,你需要使用像 RSelenium 这样的包来使用可以运行 javascript 来获取数据的网络浏览器,
标签: r web-scraping tidyverse rvest