【问题标题】:Best way to parse an invalid HTML in PHP在 PHP 中解析无效 HTML 的最佳方法
【发布时间】:2011-04-06 03:04:07
【问题描述】:

有没有更好的方法来解析无效的 HTML,然后对其应用 Tidy?

旁注: 在某些情况下,您无法使用 Tidy。 也不建议使用正则表达式来解析 html。

【问题讨论】:

  • 在您没有 Tidy 可用的情况下,您应该安装它。或者你一开始就不能使用损坏的 HTML。
  • 你是认真的吗?至少有几次我无法做到这一点:来自需要解析的客户端的无效 html 代码,共享主机没有安装 Tidy 的选项..

标签: php html parsing


【解决方案1】:

我会尝试这样的事情:http://php.net/manual/en/domdocument.loadhtml.php

从那个页面:

该函数解析字符串源中包含的 HTML。与加载 XML 不同,加载 HTML 时不必格式正确。也可以静态调用此函数来加载和创建 DOMDocument 对象。

【讨论】:

  • 似乎在两个或多个元素上将 HTML 对象加载到相同的 ID 值(尽管这可能来自 libxml)
【解决方案2】:

SimpleHTMLDOM 比 PHP 的原生 DOM 函数更宽松。

【讨论】:

猜你喜欢
  • 2014-04-15
  • 1970-01-01
  • 2011-02-18
  • 2010-09-06
相关资源
最近更新 更多