【发布时间】:2020-12-25 19:34:49
【问题描述】:
我正在尝试抓取一个 javascript 呈现的表格,在尝试了 selenium 和 phantomJS 之后,我决定 JSON 将是最简单的方法。但是,我对 R 很陌生,并且不太擅长处理列表,因此我无法将数据转换为我想要的表格格式。我查看了许多解决方案,但由于某种原因,它们并不能真正适用于我拥有的 JSON。
JSON 数据通过this URL 呈现。而this是表格所在的实际网站。
到目前为止,我所做的是尝试将 JSON 解析为 R 并将其强制转换为数据帧,基于我从 stackoverflow 上的大多数答案中看到的内容。
library(httr)
library(jsonlite)
rf <- GET(url) #the entire URL is very long so I'm not putting it here
rfc <- content(rf)
这样做会返回一个包含四个元素的大列表,rfc。然后我应用以下函数。
library(httr)
library(jsonlite)
json_file <- lapply(rfc, function(x) {
x[sapply(x, is.null)] <- NA
unlist(x)
})
这会返回一个错误:
Error in x[sapply(x, is.null)] <- NA : invalid subscript type 'list'
鉴于我只需要列表的第二个元素,即信息所在的位置,因此我尝试对其进行子集化:
json_file <- lapply(rfc[2], function(x) {
x[sapply(x, is.null)] <- NA
unlist(x)
})
这会返回一个大列表,大小为 12mb。当我尝试使用 as.data.frame 将其强制转换为数据帧时,R 返回我对 1 个变量的 506472 个观察值。不同的列都被压缩成一个,标题也不见了。
谁能告诉我应该怎么做?有一个免费的在线 JSON 到 CSV converter here 可以完美地满足我的需求。这是它产生的结果:
很遗憾,这不是解决方案。因为我打算在 Shiny 中运行它,所以我想在 R 中做所有事情。感谢任何帮助,谢谢。
【问题讨论】:
标签: r json dataframe csv web-scraping