使用 rvest 从网站上抓取表格

【问题标题】：Scraping a table from a website using rvest使用 rvest 从网站上抓取表格
【发布时间】：2019-09-30 23:55:39
【问题描述】：

我正在尝试从财政部网站上抓取表格。

https://www.treasury.gov/resource-center/data-chart-center/interest-rates/Pages/TextView.aspx?data=yieldYear&year=2019

我目前的工作是收集数据，但是

library("rvest")
url <- "https://www.treasury.gov/resource-center/data-chart-center/interest-rates/Pages/TextView.aspx?data=yieldAll"

data <- url %>%
  html()

但我似乎无法将其转换为表格格式，因为我有一个函数。

data %>%
html_table()

【问题讨论】：

标签： r

【解决方案1】：

最好先使用 CSS 来定位包含表格的节点。这张桌子很大（大约 7400 行）。使用html_table 渲染需要 30 秒。

library("rvest")
library(httr)
url <- "https://www.treasury.gov/resource-center/data-chart-center/interest-rates/Pages/TextView.aspx?data=yieldAll"
ua <- "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36"

data <- html_session(url,user_agent(ua))
data %>%
    html_node("table.t-chart") %>%
    html_table()

【讨论】：