【发布时间】:2016-07-01 01:20:45
【问题描述】:
我正在尝试从网站 (https://www.freedraftguide.com/fantasy-football/rankings/quarterbacks) 上抓取表格,但我尝试了多种方法均未成功。当我运行下面的代码时,我收到以下错误:XML content does not seem to be XML
library("XML")
library("RCurl")
readHTMLTable("https://www.freedraftguide.com/fantasy-football/rankings/quarterbacks")
以下使用RCurl 的方法均无效:
rts.url <- getURL("https://www.freedraftguide.com/fantasy-football/rankings/quarterbacks")
xmlParse(rts.url)
xmlInternalTreeParse(rts.url)
readHTMLTable(rts.url)
httr 没有成功:
library("httr")
GET("https://www.freedraftguide.com/fantasy-football/rankings/quarterbacks")
rvest 没有成功:
library("rvest")
read_html("https://www.freedraftguide.com/fantasy-football/rankings/quarterbacks")
我对 RSelenium 不太熟悉,但这是我根据文档中的示例进行的尝试:
library("RSelenium")
startServer()
remDr <- remoteDriver$new()
remDr$open()
remDr$navigate("https://www.freedraftguide.com/fantasy-football/rankings/quarterbacks")
Error: Summary: UnknownError
Detail: An unknown server-side error occurred while processing the command.
class: org.openqa.selenium.UnsupportedCommandException
【问题讨论】:
-
数据是用jQuery加载的,所以你需要用可以运行它的东西来加载页面,比如RSelenium。
-
刚刚添加了使用 RSelenium 的尝试(不太熟悉,但根据文档中的示例仍然会出错)。非常感谢任何帮助,谢谢!
-
我设法获得了一个带有 rvest::html 的 xml,即使它给出了一个警告,指出 rvest::html 已被弃用......我也没有收到 xml2::read_html 的错误...
-
我没有得到 rvest 或 xml2 的错误,但我也没有得到页面上的表格。
标签: r xml web-scraping screen-scraping rselenium