【发布时间】:2016-05-16 18:44:36
【问题描述】:
我正在尝试从 Yelp 中抓取数据。一个步骤是从每家餐厅提取链接。例如,我搜索纽约市的餐馆并得到一些结果。然后我想提取 Yelp 在第 1 页推荐的所有 10 家餐厅的链接。这是我尝试过的:
library(rvest)
page=read_html("http://www.yelp.com/search?find_loc=New+York,+NY,+USA")
page %>% html_nodes(".biz-name span") %>% html_attr('href')
但代码总是返回“NA”。任何人都可以帮助我吗?谢谢!
【问题讨论】:
-
尝试使用 RSelenium。效果很好。
-
@Bharath,谢谢!我知道如何使用 RSelenium 来做到这一点。我只是想看看我是否可以只使用 rvest 包。
-
但是即使使用 Selenium 包,我也无法获取属性,它再次为我返回 NA
-
您违反了他们Terms of Service 的B 条。他们有一个 API。为什么不使用它?
-
@hrbrmstr,谢谢。我会看看他们的 API。
标签: r web-scraping yelp rvest