使用“rvest”进行多链接网页抓取。错误参数意味着不同的行数答案

【问题标题】：Multiple links web scraping using "rvest" . Error arguments imply differing number of rows使用“rvest”进行多链接网页抓取。错误参数意味着不同的行数
【发布时间】：2019-03-09 10:13:51
【问题描述】：

我正在尝试 rvest 网页抓取，但出现以下错误

代码

library(xml2)


library(rvest)


library(purrr)


ulr_base <- "https://journals.sagepub.com/toc/jina/33/%d"


map_df(1:4,function(i){


 page <- read_html(sprintf(ulr_base,i))


  data.frame(IssueID =html_text(html_nodes(page,".journalNavTitle")),


         Heading = html_text(html_nodes(page,".hlFld-Title")),


         Author = html_text(html_nodes(page,".entryAuthor"))
         
  )


 }) -> SageJournals

错误：

data.frame 中的错误(IssueID = html_text(html_nodes(page, ".journalNavTitle")), : 参数暗示不同的行数：1、6、65

我现在该怎么办。注意：我使用选择器小工具。

【问题讨论】：

标签： loops web-scraping rvest

【解决方案1】：

问题是你们所有的作者都是单独导出的。所以你有 1 期、6 篇文章和 65 位作者。使用这些节点导出每篇文章的作者：

ulr_base <- "https://journals.sagepub.com/toc/jina/33/%d"

map_df(1:4, function(i){
  page <- read_html(sprintf(ulr_base,i))
  data.frame(IssueID = html_text(html_nodes(page,".journalNavTitle")),
             Heading = html_text(html_nodes(page, ".heading-title")),
             Author = html_text(html_nodes(page, ".all"))
  )
}) -> SageJournals

【讨论】：