【问题标题】:Multiple links web scraping using "rvest" . Error arguments imply differing number of rows使用“rvest”进行多链接网页抓取。错误参数意味着不同的行数
【发布时间】:2019-03-09 10:13:51
【问题描述】:

我正在尝试 rvest 网页抓取,但出现以下错误

代码

library(xml2)


library(rvest)


library(purrr)


ulr_base <- "https://journals.sagepub.com/toc/jina/33/%d"


map_df(1:4,function(i){


 page <- read_html(sprintf(ulr_base,i))


  data.frame(IssueID =html_text(html_nodes(page,".journalNavTitle")),


         Heading = html_text(html_nodes(page,".hlFld-Title")),


         Author = html_text(html_nodes(page,".entryAuthor"))
         
  )


 }) -> SageJournals

错误:

data.frame 中的错误(IssueID = html_text(html_nodes(page, ".journalNavTitle")), : 参数暗示不同的行数:1、6、65

我现在该怎么办。 注意:我使用选择器小工具。

【问题讨论】:

    标签: loops web-scraping rvest


    【解决方案1】:

    问题是你们所有的作者都是单独导出的。所以你有 1 期、6 篇文章和 65 位作者。使用这些节点导出每篇文章的作者:

    ulr_base <- "https://journals.sagepub.com/toc/jina/33/%d"
    
    map_df(1:4, function(i){
      page <- read_html(sprintf(ulr_base,i))
      data.frame(IssueID = html_text(html_nodes(page,".journalNavTitle")),
                 Heading = html_text(html_nodes(page, ".heading-title")),
                 Author = html_text(html_nodes(page, ".all"))
      )
    }) -> SageJournals
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-10-11
      • 2018-02-15
      • 2018-10-27
      • 1970-01-01
      • 2017-03-28
      相关资源
      最近更新 更多