【问题标题】:Downloading multiple JSON files from a website folder从网站文件夹下载多个 JSON 文件
【发布时间】:2020-04-24 13:11:36
【问题描述】:

我正在尝试从link 下载所有带有“tree”一词的文件。

我知道如何单独下载它们,但我不知道如何根据条件一次性下载它们(有单词“树”)。

【问题讨论】:

  • wget -r "site" 我猜是包含还是排除?
  • 您能详细说明一下吗?不熟悉这个命令:)
  • 它不是原生的 R,但如果你在 *nix 系统上,你可以使用它。我不确定download.file 是否支持递归下载。

标签: r json httr


【解决方案1】:

这可能很慢(见注释):

 library(dplyr)
library(rvest)
my_table<-read_html("https://www1.ncdc.noaa.gov/pub/data/metadata/published/paleo/json/")
my_table %>% 
  html_nodes(css="table") %>% 
  html_table() -> res
json_names<-res[[1]][,2]
json_names %>% 
  as_tibble() %>% 
  slice(3:nrow(.)) %>% 
  filter(grepl("tree",value)) %>% 
  pull(value) %>% 
  lapply(.,function(x) paste0("https://www1.ncdc.noaa.gov/pub/data/metadata/published/paleo/json/",
                                                x)) %>% 
  unlist() -> url_list

示例结果:

 lapply(url_list[1:2],jsonlite::fromJSON)
[[1]]
[[1]]$xmlId
[1] "4355"

[[1]]$NOAAStudyId
[1] "2657"

[[1]]$studyName
[1] "Adams - Fernow Experimental Forest - QUPR - ITRDB WV003"

[[1]]$doi
[1] "https://doi.org/10.25921/jzj2-vy39"

注意

在 *nix 机器上,我会改用 wget

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-07-14
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多