【问题标题】:Scraping a website with rvest: "Current page doesn't appear to be html."使用 rvest 抓取网站:“当前页面似乎不是 html。”
【发布时间】:2021-01-04 08:44:10
【问题描述】:

我尝试访问这个网站:https://www.apa.org/pubs/journals/browse?query=Title:*&type=journal

但是,我收到错误消息:当前页面似乎不是 html。

因此我无法继续使用html_nodes 等抓取网站。

这是我的代码:

apa_url <- "https://www.apa.org/pubs/journals/browse?query=Title:*&type=journal"

apa_page <- rvest::html_session(apa_url,
                                httr::user_agent("Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.20 (KHTML, like Gecko) Chrome/11.0.672.2 Safari/534.20"))

如果您知道如何解决它,我将非常感谢您的帮助!

【问题讨论】:

    标签: html r web-scraping http-headers rvest


    【解决方案1】:

    您尚未共享要抓取的内容,但您不需要创建会话。

    例如,要在第一页获取期刊的标题,您可以这样做:

    library(rvest)
    apa_url <- "https://www.apa.org/pubs/journals/browse?query=Title:*&type=journal"
    
    apa_url %>%
      read_html() %>%
      html_nodes('section.sresults li a') %>%
      html_text()
    
    # [1] "American Journal of Orthopsychiatry - APA Publishing | APA"               
    # [2] "American Psychologist Journal - APA Publishing | APA"                     
    # [3] "Archives of Scientific Psychology"                                     
    # [4] "Asian American Journal of Psychology"                                     
    # [5] "Behavior Analysis: Research and Practice"                          
    # [6] "Behavioral Development"       
    #...
    #...
    

    【讨论】:

      猜你喜欢
      • 2022-01-28
      • 2018-03-20
      • 2017-09-27
      • 2020-07-18
      • 2019-02-17
      • 2017-03-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多