【发布时间】:2020-06-08 15:07:06
【问题描述】:
在rvest 中使用read_html 时如何抓取多个网址?目标是从各个 url 中获取由文本主体组成的单个文档,以在其上运行各种分析。
我尝试连接网址:
url <- c("https://www.vox.com/","https://www.cnn.com/")
page <-read_html(url)
page
story <- page %>%
html_nodes("p") %>%
html_text
read_html之后得到错误:
Error in doc_parse_file(con, encoding = encoding, as_html = as_html, options = options) :
Expecting a single string value: [type=character; extent=3].
这并不奇怪,因为read_html 一次可能只处理一条路径。但是,我可以使用不同的函数或转换来同时抓取多个页面吗?
【问题讨论】:
标签: html r screen-scraping rvest