【发布时间】:2010-11-11 11:00:52
【问题描述】:
重复: Looking for C# HTML parser。请关闭。
你能推荐我一个在 .NET 中以 XML 格式读取 HTML 文件的库吗?我实际上更喜欢处理 XML 对象而不是文本。理想情况下,它必须修复 HTML 格式错误。
【问题讨论】:
-
我知道这一点。否则我会使用常规的 XLINQ。
重复: Looking for C# HTML parser。请关闭。
你能推荐我一个在 .NET 中以 XML 格式读取 HTML 文件的库吗?我实际上更喜欢处理 XML 对象而不是文本。理想情况下,它必须修复 HTML 格式错误。
【问题讨论】:
您可能需要重新考虑这一点。两者不相等。
自闭标签就是一个很好的例子。
XML 标准表明自闭标签如下所示:
<br/>
而 html 标准将非内容标签作为单个标签
<br>
<link rel="...">
在 html 中,使用 xml 语法实际上是违规的,因为/> 有不同的含义。
following article 中有更多此类问题的示例。
【讨论】:
<br> 被翻译成<br/>,隐式关闭的<p> 被显式关闭,等等。