【发布时间】:2020-07-09 13:06:10
【问题描述】:
每个人。我知道这很愚蠢,我不会问我是否没有在这里检查每个 for 循环 答案。
但我需要抓取 95 页,但我不知道如何循环播放。
这是代码:
url <- "https://www.riksdagen.se/sv/Dokument-Lagar/?datum=2000-01-01&q=kvinn&st=2&tom=2018-12-31&doktyp=fr&p="
page <- read_html(url)
title_html <- html_nodes(page,'.medium-big')
text_html <- html_nodes(page,'.font-bold')
full_html <- html_nodes(page, '.medium-smaller')
text_html[[21]] <- NULL
full_html[c(1, 21, 22)] <- NULL
title <- html_text(title_html)
text <- html_text(text_html)
full <- html_text(full_html)
frame <- data.frame(title, text, full)
它得到了我需要的一切,除了我需要逐页浏览。我正在使用 rvest 和 dplyr。
提前致谢。
【问题讨论】:
-
是否要循环访问不同的 URL?是这样吗?只需创建一个函数,接收
url作为输入并输出frame,然后通过URL 向量输出lapply。
标签: r loops web-scraping rvest