从一个网页中抓取所有表格？答案

【问题标题】：scraping all tables from a single webpage?从一个网页中抓取所有表格？
【发布时间】：2019-06-28 18:25:13
【问题描述】：

对于第一个站点，数据被抓取到 reservoirs data.frame 中，只需要整理一下，但是对于第二个站点，有两组表，一个上一个，一个下一个，我不知道如何获取更低。

网站：

1) http://cdec.water.ca.gov/reportapp/javareports?name=RES

2) http://cdec.water.ca.gov/reportapp/javareports?name=FNF

library(tidyverse)
library(XML)

reservoirs <-  "http://cdec.water.ca.gov/reportapp/javareports?name=RES" %>% 
               readHTMLTable() %>% 
               data.frame()  

flows_part1 <- "http://cdec.water.ca.gov/reportapp/javareports?name=FNF" %>% 
               readHTMLTable() %>% 
               data.frame()


#flows_part2 <- ??

关于如何从第二个站点获取第二个表的任何想法（或最初获取所有内容的更好方法？）

谢谢！

【问题讨论】：

标签： r xml rselenium

【解决方案1】：

readHTMLTable 函数会将所有表格存储到一个列表中，然后可以从每个列表元素中提取该列表。

flows <-  readHTMLTable("http://cdec.water.ca.gov/reportapp/javareports?name=FNF", as.data.frame = TRUE)

flows_part1 <- flows[[1]]
flows_part2 <- flows[[2]]

【讨论】：