【发布时间】:2020-06-18 23:34:57
【问题描述】:
我有一个导入数据的脚本,如下所示:
library(tidyverse)
library(rvest)
library(magrittr)
page_number <- 1:20
base_url <- read_html("https://247sports.com/Season/2021-Football/CompositeRecruitRankings/?ViewPath=~%2FViews%2FSkyNet%2FPlayerSportRanking%2F_SimpleSetForSeason.ascx&Page=1")
rankings <- base_url %>% html_nodes(".meta , .score , .position , .rankings-page__name-link") %>%
html_text() %>%
str_trim %>%
str_split(" ") %>%
unlist %>%
matrix(ncol = 4, byrow = T) %>%
as.data.frame
您会在base_url 中注意到,在最后,它包括&Page=1。好吧,我正在尝试这样做 20 页,因此:
page_number <- 1:20
在无需编写 20 组不同代码的情况下,将这些数字循环到 URL 中的最有效方法是什么?
【问题讨论】:
标签: r web-scraping dplyr tidyverse rvest