【问题标题】:rvest help: webscraping empty resultsrvest 帮助:网络抓取空结果
【发布时间】:2021-01-31 09:57:26
【问题描述】:

我在网页抓取方面需要帮助......有人可以救我吗?

为此,我正在尝试在此网页https://www.whed.net/results_institutions.php 中获取大学列表,我正在使用以下代码:

library(rvest)
library(dplyr)


whed_afg <- "https://www.whed.net/results_institutions.php"
whed_afg1 <- read_html(whed_afg)
whed_afg1
str(whed_afg1)

univ_afg1 = whed_afg1 %>% html_nodes("#results .fancybox\\.iframe") %>% html_text()
univ_afg1

我在 html_nodes 上放了双“”,因为它给了我错误:错误:'。'是以“”#results .fancybox 开头的字符串中无法识别的转义。

谁能帮帮我,我不知道我做错了什么。

谢谢大家, 里卡多

【问题讨论】:

  • 我认为你应该使用 RSelenium。你需要什么输出?
  • 亲爱的伯爵,感谢您的帮助。我想要得到的是这个网页上的大学名称列表。像:大学A,大学B,大学C,......在每一行。谢谢。

标签: r rvest


【解决方案1】:

我认为您的起始网址可能有误?或者当我使用您的网址重新定向时,它在登录后面。我在以下 url 上看到了完整的大学列表,并且有不同的课程可供选择。这些可以按感兴趣的国家/地区划分。

library(rvest)

url <- "https://www.iau-aiu.net/List-of-IAU-Members?lang=en"
universities <- read_html(url)  %>% html_nodes('.spip_out') %>% html_text()
print(universities)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-01-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多