【问题标题】:Scraping a table from a website using rvest使用 rvest 从网站上抓取表格
【发布时间】:2019-09-30 23:55:39
【问题描述】:

我正在尝试从财政部网站上抓取表格。

https://www.treasury.gov/resource-center/data-chart-center/interest-rates/Pages/TextView.aspx?data=yieldYear&year=2019

我目前的工作是收集数据,但是

library("rvest")
url <- "https://www.treasury.gov/resource-center/data-chart-center/interest-rates/Pages/TextView.aspx?data=yieldAll"

data <- url %>%
  html()

但我似乎无法将其转换为表格格式,因为我有一个函数。

data %>%
html_table()

【问题讨论】:

    标签: r


    【解决方案1】:

    最好先使用 CSS 来定位包含表格的节点。这张桌子很大(大约 7400 行)。使用html_table 渲染需要 30 秒。

    library("rvest")
    library(httr)
    url <- "https://www.treasury.gov/resource-center/data-chart-center/interest-rates/Pages/TextView.aspx?data=yieldAll"
    ua <- "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36"
    
    data <- html_session(url,user_agent(ua))
    data %>%
        html_node("table.t-chart") %>%
        html_table()
    
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-10-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-01-30
      • 2017-10-16
      • 2020-10-25
      • 2022-07-10
      相关资源
      最近更新 更多