【发布时间】:2011-03-01 05:32:28
【问题描述】:
我想用 R 来抓取这个页面:(http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html) 和其他人,以获取进球者和时间。
到目前为止,这就是我所拥有的:
require(RCurl)
require(XML)
theURL <-"http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html"
webpage <- getURL(theURL, header=FALSE, verbose=TRUE)
webpagecont <- readLines(tc <- textConnection(webpage)); close(tc)
pagetree <- htmlTreeParse(webpagecont, error=function(...){}, useInternalNodes = TRUE)
并且 pagetree 对象现在包含一个指向我解析的 html 的指针(我认为)。我想要的部分是:
<div class="cont")<ul>
<div class="bold medium">Goals scored</div>
<li>Philipp LAHM (GER) 6', </li>
<li>Paulo WANCHOPE (CRC) 12', </li>
<li>Miroslav KLOSE (GER) 17', </li>
<li>Miroslav KLOSE (GER) 61', </li>
<li>Paulo WANCHOPE (CRC) 73', </li>
<li>Torsten FRINGS (GER) 87'</li>
</ul></div>
但我现在不知道如何隔离它们,坦率地说,xpathSApply 和 xpathApply 让我迷惑了!
那么,有谁知道如何制定一个命令来吸出<div class="cont"> 标签中包含的元素?
【问题讨论】:
-
在做这样的事情时要小心...在大多数情况下,FIFA 或 FIBA、NBA 等组织不允许使用他们的数据 - 简单地说:他们的数据是他们的财产!所以下次提供一些虚拟的 HTML 代码,或者只是指向一些无害的网站! =)
标签: xml r web-scraping rcurl