【问题标题】:scraping all tables from a single webpage?从一个网页中抓取所有表格?
【发布时间】:2019-06-28 18:25:13
【问题描述】:

对于第一个站点,数据被抓取到 reservoirs data.frame 中,只需要整理一下,但是对于第二个站点,有两组表,一个上一个,一个下一个,我不知道如何获取更低。

网站:

1) http://cdec.water.ca.gov/reportapp/javareports?name=RES

2) http://cdec.water.ca.gov/reportapp/javareports?name=FNF

library(tidyverse)
library(XML)

reservoirs <-  "http://cdec.water.ca.gov/reportapp/javareports?name=RES" %>% 
               readHTMLTable() %>% 
               data.frame()  

flows_part1 <- "http://cdec.water.ca.gov/reportapp/javareports?name=FNF" %>% 
               readHTMLTable() %>% 
               data.frame()


#flows_part2 <- ??  

关于如何从第二个站点获取第二个表的任何想法(或最初获取所有内容的更好方法?)

谢谢!

【问题讨论】:

    标签: r xml rselenium


    【解决方案1】:

    readHTMLTable 函数会将所有表格存储到一个列表中,然后可以从每个列表元素中提取该列表。

    flows <-  readHTMLTable("http://cdec.water.ca.gov/reportapp/javareports?name=FNF", as.data.frame = TRUE)
    
    flows_part1 <- flows[[1]]
    flows_part2 <- flows[[2]]
    

    【讨论】:

      猜你喜欢
      • 2019-01-15
      • 1970-01-01
      • 2014-05-21
      • 1970-01-01
      • 2019-10-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多