【发布时间】:2017-11-03 17:39:45
【问题描述】:
我正在尝试从这个网站上抓取 cmets:
这是我执行此任务的代码。
url <- 'http://www.latercera.com/noticia/trabajos-realizan-donde-viven-los-extranjeros-tienen-residencia-chile/'
webpage <- read_html(url)
data_html <- html_nodes(webpage,"gig-comment-body")
不幸的是,rvest 似乎无法通过 CSS 选择器 (gig-comment-body) 识别节点。
nodes 是一个空列表,所以它不会抓取任何东西。
【问题讨论】:
-
我从页面源代码中猜测是 cmets 是通过 javascript 加载的。您需要使用
RSelenium之类的东西(也许还有“PhantomJS”无头浏览器实例)。