【发布时间】:2021-08-29 20:00:11
【问题描述】:
我正在尝试从以下网站提取数据:“https://2010-2014.kormany.hu/hu/hirek”。例如,当我尝试使用以下内容从该网站提取文章的链接时,我什么也没得到。
library(rvest)
library(dplyr)
library(XML)
url <- 'www.2015-2019.kormany.hu/hu/hirek'
links <- read_html(url) %>% html_nodes("div") %>% html_nodes(xpath = '//*[@class="article"]') %>% html_nodes("h2") %>% html_nodes("a") %>% html_attr("href")
links
> character(0)
如果我运行以下代码,我什至什么都得不到:
links <- read_html(url) %>% html_nodes("div")
links
> character(0)
这很奇怪,因为当我检查网站时,我似乎应该从我提供的代码中获取 URL 列表。根据网站的来源,有“div”节点('view-source:https://2015-2019.kormany.hu/hu/hirek')。有谁知道我做错了什么?
【问题讨论】:
-
数据似乎来自javascript。看看this的问题。
-
嗨@maydin。谢谢!根据您建议的帖子,我无法访问该网站。这是我尝试过的代码:``` remDr checkError(res) 中的错误:httr 调用中的未定义错误。 httr 输出:length(url) == 1 is not TRUE>
标签: r web-scraping rvest