【发布时间】:2014-07-01 13:20:23
【问题描述】:
我已阅读有关 R 中网络抓取的所有先前问题,但无法解决我的问题。我想获取图片的名称(请参阅下面的 URL)和每张图片的详细信息。
我意识到必须使用xpathSApply 和一个循环来获取每张照片的信息。但是现在我即使从http://www.wikiart.org/en/search/monet/11取一个名字也有问题
library(XML)
url = "http://www.wikiart.org/en/search/monet/1#supersized-search-211804"
doc = htmlTreeParse(url, useInternalNodes=T)
pictureName = xpathSApply(doc,"//a[contains(@href, 'title')]",xmlValue)
pictureName
## list()
为什么给我list()?
【问题讨论】:
-
我知道这是另一回事,但要了解它的工作原理,您可能应该知道 xpath 的工作原理。这有点像解析 XML 的正则表达式。
标签: r web web-scraping