【发布时间】:2013-11-09 18:11:38
【问题描述】:
我已经搜索并查看了很多关于 stackoverflow 的示例,但仍然无法使其正常工作。
我想抓取一个网站以获取我的体育俱乐部的位置表。
我的问题是我无法从表格中获取“tr”内容。一开始我使用 REGEX,但后来我读到人们不会推荐它,所以现在我使用 XPath,但无法让它工作。
我要爬取的页面是:http://resultater.dai-sport.dk/tms/Turneringer-og-resultater/Pulje-Stilling.aspx?PuljeId=104
我现在的代码是:
$doc = new DOMDocument();
$doc->loadHTMLFile("http://resultater.dai-sport.dk/tms/Turneringer-og-resultater/Pulje-Stilling.aspx?PuljeId=104"); // or you could load from a string using loadHTML();
$xpath = new DOMXpath($doc);
$elements = $xpath->query("/table/thead/tbody/tr");
print_r($elements);
我得到的结果是:DOMNodeList Object ( [length] => 0 )
我完全错了吗?
【问题讨论】:
-
您正在寻找
tbody中的thead?? -
您可能还想通过表 id 进行限制,以防该页面上有多个表。
标签: php regex xpath web-crawler