【问题标题】:Issue webscraping a website: not extracting anything发出网页抓取网站:不提取任何内容
【发布时间】:2021-08-29 20:00:11
【问题描述】:

我正在尝试从以下网站提取数据:“https://2010-2014.kormany.hu/hu/hirek”。例如,当我尝试使用以下内容从该网站提取文章的链接时,我什么也没得到。

library(rvest)
library(dplyr)
library(XML)

url <- 'www.2015-2019.kormany.hu/hu/hirek'
links <- read_html(url) %>% html_nodes("div") %>% html_nodes(xpath = '//*[@class="article"]') %>% html_nodes("h2") %>% html_nodes("a") %>% html_attr("href")

links
> character(0)

如果我运行以下代码,我什至什么都得不到:

links <- read_html(url) %>% html_nodes("div")

links
> character(0)

这很奇怪,因为当我检查网站时,我似乎应该从我提供的代码中获取 URL 列表。根据网站的来源,有“div”节点('view-source:https://2015-2019.kormany.hu/hu/hirek')。有谁知道我做错了什么?

【问题讨论】:

  • 数据似乎来自javascript。看看this的问题。
  • 嗨@maydin。谢谢!根据您建议的帖子,我无法访问该网站。这是我尝试过的代码:``` remDr checkError(res) 中的错误:httr 调用中的未定义错误。 httr 输出:length(url) == 1 is not TRUE>

标签: r web-scraping rvest


【解决方案1】:

今天我重新尝试了我的代码,它运行良好。我不确定昨天发生了什么。

【讨论】:

  • 请添加更多详细信息以扩展您的答案,例如工作代码或文档引用。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2010-10-09
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多