【问题标题】:Library for reading HTML files as XML (.NET)用于将 HTML 文件读取为 XML (.NET) 的库
【发布时间】:2010-11-11 11:00:52
【问题描述】:

重复: Looking for C# HTML parser。请关闭。

你能推荐我一个在 .NET 中以 XML 格式读取 HTML 文件的库吗?我实际上更喜欢处理 XML 对象而不是文本。理想情况下,它必须修复 HTML 格式错误。

【问题讨论】:

  • 我知道这一点。否则我会使用常规的 XLINQ。

标签: .net html parsing


【解决方案1】:

您可能需要重新考虑这一点。两者不相等。

自闭标签就是一个很好的例子。

XML 标准表明自闭标签如下所示:

<br/>

而 html 标准将非内容标签作为单个标签

<br>
<link rel="...">

在 html 中,使用 xml 语法实际上是违规的,因为/&gt; 有不同的含义。

following article 中有更多此类问题的示例。

【讨论】:

  • 这正是问题的重点——他想要一个能够读取 HTML 及其所有怪癖的库,并将其公开为格式良好的 XHTML。所以&lt;br&gt; 被翻译成&lt;br/&gt;,隐式关闭的&lt;p&gt; 被显式关闭,等等。
猜你喜欢
  • 1970-01-01
  • 2013-01-02
  • 2011-07-25
  • 1970-01-01
  • 1970-01-01
  • 2011-06-17
  • 2015-05-19
  • 1970-01-01
相关资源
最近更新 更多