【发布时间】:2017-07-08 06:52:35
【问题描述】:
我正在尝试从http://stats.nba.com/team/#!/1610612742/ 的名册数据中抓取数据。到目前为止,我已经尝试过 RCurl 和 XML 包,我尝试过的代码如下:
library(RCurl)
library(XML)
webpage <- getURL("http://stats.nba.com/team/#!/1610612742/")
webpage <- readLines(tc <- textConnection(webpage));
pagetree <- htmlTreeParse(webpage, useInternalNodes = TRUE)
x <- unlist(xpathApply(pagetree,"//*nba-stat-table_overflow/player",xmlValue))
Content <- gsub(pattern = "([\t\n])",
replacement = " ", x = x, ignore.case = TRUE)
我认为我的 xpathApply 函数格式错误。我应该给它什么路径才能到达名册表?
【问题讨论】:
-
看起来数据是通过 JavaScript 以某种方式加载的,这意味着您需要使用 RSelenium 之类的东西来拉取 HTML,它可以控制浏览器实际运行必要的脚本。 Here's an example. 当然,请务必阅读条款和条件;他们的数据相当慷慨,但非常具体地说明了如何使用他们的统计数据。
-
对不起,这只是一个关于网络抓取的家庭作业
-
无需道歉;这不是最容易抓取的页面。维基百科是一个更容易练习的网站。
标签: r web-scraping xml-parsing rcurl