【发布时间】:2011-03-22 20:37:37
【问题描述】:
我正在寻找一些 PHP 中的 HTML Parser,它可以帮助我从 html 源代码中提取 href values。
我查看了phpQuery 和它最好的,但它对我的需求来说太过分了,而且需要大量 CPU 来做我不需要的额外工作。
我也查了
$dom = 新的 DomDocument();
$dom->loadHTML($html);
但它在解析HTML5标签时有问题。
有没有更好的library/class 或方法来做到这一点?
【问题讨论】:
-
您是否仅从锚和链接标签中提取href?在这种情况下,为什么 HTML5 标签会影响您?你看过 DOMXPath 吗?
-
@tandu,
loadHTML实际上是针对 HTML4 进行验证的。尝试使用 HTML5 标记(如<section>)会导致警告。也就是说,当我测试它时,它似乎确实使标签可查找和可序列化。
标签: php html-parsing