【发布时间】:2014-12-06 01:28:04
【问题描述】:
我是 R 中网络抓取的新手,最近在引用 javascript 的网站上遇到了问题。我试图从下面的网页中抓取数据,但没有成功。我相信 javascript 链接阻止我访问该表。结果,带有函数“readHTMLTable”的 R 包“XML”为空。
library(XML)
library(RCurl)
url <- "http://votingrights.news21.com/interactive/movement-voter-id/index.html"
tabs <- getURL(url)
tabs <- htmlParse(url)
tabs <- readHTMLTable(tabs, stringsAsFactors = FALSE)
如何访问 javascript 链接以获取数据?或者这甚至可能吗?当使用数据的直接链接(如下)和 R 包“rjson”时,我仍然无法读取数据。
library("rjson")
json_file <- "http://votingrights.news21.com/static/interactives/movement/data/fulldata.js"
lines <- readLines(json_file)
json_data <- fromJSON(lines, collapse="")
【问题讨论】:
标签: javascript html r web-scraping