【发布时间】:2016-05-23 07:26:22
【问题描述】:
我正在尝试使用 R 抓取一些网站。但是,由于未知原因,我无法从该网站获取所有信息。我通过首先下载完整的网页(从浏览器中保存)找到了解决方法。我想知道是否会使用某些功能下载完整的网站。 我尝试了“download.file”和“htmlParse”,但它们似乎只下载源代码。
url = "http://www.tripadvisor.com/Hotel_Review-g2216639-d2215212-Reviews-Ayurveda_Kuren_Maho-Yapahuwa_North_Western_Province.html"
download.file(url , "webpage")
doc <- htmlParse(urll)
ratings = as.data.frame(xpathSApply(doc,'//div[@class="rating reviewItemInline"]/span//@alt'))
【问题讨论】:
-
根据terms of use的说法,未经允许禁止这样做。你有吗?
-
如果纯粹出于教育目的,他们会例外
-
rvest是经常被推荐用于解析 XML 和 HTML 的包之一。 cran.r-project.org/web/packages/rvest/rvest.pdf -
包
httr可能对你有用。httr::GET函数提取您网站的正文内容以及其他信息。
标签: r html-parsing