【问题标题】:How do I use regrx to parse HTML file and remove all the commented-out text <!-- -->?如何使用 regrx 解析 HTML 文件并删除所有注释掉的文本 <!-- -->?
【发布时间】:2012-05-17 18:25:12
【问题描述】:

我需要解析一个 HTML 文件并删除所有被&lt;!-- HTML cmets 注释掉的行,该文件可能包含&lt;!----&gt; 的多个部分。

有人知道如何使用正则表达式删除 HTML 文件中 &lt;!----&gt; 之间的 cmets 吗?该文件有多行。

我有大约 1000 个文件要处理,我需要使用 C#。

【问题讨论】:

  • 你需要这个代码吗...你为什么不直接使用文本编辑器删除?
  • 仅供参考,HTML 中没有行,不是您的意思。虽然行分隔符的存在使其在技术上成为多行字符串,但这并不会改变您处理它的方式。

标签: c# .net regex html


【解决方案1】:

替换

<!--.*?-->

使用空字符串

并设置选项,使点也匹配换行符。

在 C# 中,这变成了

resultString = Regex.Replace(subjectString, "<!--.*?-->", "", RegexOptions.Singleline);

【讨论】:

  • 您可以使用 C# 编写一个小程序,但您也可以使用实际搜索和替换 divlocsoft.com/#find%20and%20replace(共享软件)或 funduc.com/search_replace.htm(商业)。最好的是 Powergrep,但要花几块钱。
  • 我错过了什么吗? (.) 替代方案的目的是什么?为什么不直接匹配 cmets 并用空字符串替换它们?
  • @Alan 我把它弄得太复杂了,确实可以省略替代方案。我简化了答案
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2012-11-12
  • 2023-04-02
  • 2017-12-23
  • 2011-06-01
  • 1970-01-01
  • 2014-08-10
  • 2018-11-07
相关资源
最近更新 更多