【发布时间】:2019-09-23 08:16:15
【问题描述】:
我正在尝试抓取此网站。 https://web.tmxmoney.com/earnings.php?qm_symbol=DOL 特别是屏幕底部的表格。 我尝试了无数的 CSS 和 XPath,但仍然得到 {xml_nodeset(0)}。我正在寻找一个直观的答案,而不仅仅是代码。
这是我的一些尝试。
library(httr)
library(rvest)
library(dplyr)
tbl = read_html('https://web.tmxmoney.com/earnings.php?qm_symbol=DOL')%>%
html_nodes("table").[2]%>%html_table(fill = T)#no luck
tbl = read_html('https://web.tmxmoney.com/earnings.php?qm_symbol=DOL')%>%
html_nodes(xpath = '//*[@id="DataTables_Table_0"]')%>%html_table(fill = T)#node set(0)
【问题讨论】:
-
我怀疑页面没有立即完全填充,也许解决方案是使用cran.r-project.org/web/packages/RSelenium/index.html 启动浏览器会话,然后从那里下载。
标签: r web-scraping rvest httr