【发布时间】:2021-01-31 09:57:26
【问题描述】:
我在网页抓取方面需要帮助......有人可以救我吗?
为此,我正在尝试在此网页https://www.whed.net/results_institutions.php 中获取大学列表,我正在使用以下代码:
library(rvest)
library(dplyr)
whed_afg <- "https://www.whed.net/results_institutions.php"
whed_afg1 <- read_html(whed_afg)
whed_afg1
str(whed_afg1)
univ_afg1 = whed_afg1 %>% html_nodes("#results .fancybox\\.iframe") %>% html_text()
univ_afg1
我在 html_nodes 上放了双“”,因为它给了我错误:错误:'。'是以“”#results .fancybox 开头的字符串中无法识别的转义。
谁能帮帮我,我不知道我做错了什么。
谢谢大家, 里卡多
【问题讨论】:
-
我认为你应该使用 RSelenium。你需要什么输出?
-
亲爱的伯爵,感谢您的帮助。我想要得到的是这个网页上的大学名称列表。像:大学A,大学B,大学C,......在每一行。谢谢。