【发布时间】:2011-06-02 01:59:05
【问题描述】:
我需要帮助在 PHP 中使用 XPath 做一些事情。
对于任何给定的 HTML,我需要:
- 删除所有表格及其内容
- 删除第一个 h1 标记之后的所有内容
- 仅保留段落(包括其内部 HTML(链接、列表等))
使用正则表达式,我可以让一切正常运行。然而,当我遇到嵌套表时,我认为用正则表达式解析 HTML 确实很愚蠢。
非常感谢!
【问题讨论】:
-
不使用 XSLT 处理 (x)Html 简直是愚蠢的。请提供您的 (x)Html 的完整示例(但尽可能精简)以及想要的结果。
-
好问题,+1。有关完整而简短的 XSLT 解决方案,请参阅我的答案。 :)
标签: php regex xslt xpath html-parsing