【问题标题】:How to remove Only HTML tags in the program [duplicate]如何仅删除程序中的 HTML 标签 [重复]
【发布时间】:2020-01-12 17:16:39
【问题描述】:

我想用 C# 删除带有某些源代码的 HTML 标签。

不幸的是,有些内容像

首先,我尝试了这样的 Regex 类。

Regex.Replace(htmltext,"[\\x00-\\x1f<>:\"/\\\\|?*]" +
        "|^(CON|PRN|AUX|NUL|COM[0-9]|LPT[0-9]|CLOCK\\$)(\\.|$)" +
        "|[\\. ]$", String.Empty);

但在这种情况下, “”已被删除。

所以任何人,请告诉我如何删除程序中的 Only HTML 标签。

谢谢。

【问题讨论】:

    标签: c# html


    【解决方案1】:

    不要尝试使用正则表达式解析 HTML。 It tends not to go well.

    使用解析器,HTML Agility Pack 很受欢迎。

    使用 HTML 敏捷包,您可以简单地调用 InnerText 来提取没有 HTML 标记的内容。

    【讨论】:

      猜你喜欢
      • 2010-12-14
      • 2010-11-10
      • 2012-12-06
      • 2013-04-28
      • 1970-01-01
      • 2012-12-29
      • 2019-05-01
      • 2012-07-09
      • 2011-10-30
      相关资源
      最近更新 更多