如何使用 regrx 解析 HTML 文件并删除所有注释掉的文本 ？答案

【问题标题】：How do I use regrx to parse HTML file and remove all the commented-out text ?如何使用 regrx 解析 HTML 文件并删除所有注释掉的文本 ？
【发布时间】：2012-05-17 18:25:12
【问题描述】：

我需要解析一个 HTML 文件并删除所有被 的多个部分。

有人知道如何使用正则表达式删除 HTML 文件中  之间的 cmets 吗？该文件有多行。

我有大约 1000 个文件要处理，我需要使用 C#。

【问题讨论】：

你需要这个代码吗...你为什么不直接使用文本编辑器删除？
仅供参考，HTML 中没有行，不是您的意思。虽然行分隔符的存在使其在技术上成为多行字符串，但这并不会改变您处理它的方式。

标签： c# .net regex html

【解决方案1】：

替换

<!--.*?-->

使用空字符串

并设置选项，使点也匹配换行符。

在 C# 中，这变成了

resultString = Regex.Replace(subjectString, "<!--.*?-->", "", RegexOptions.Singleline);

【讨论】：

您可以使用 C# 编写一个小程序，但您也可以使用实际搜索和替换 divlocsoft.com/#find%20and%20replace（共享软件）或 funduc.com/search_replace.htm（商业）。最好的是 Powergrep，但要花几块钱。
我错过了什么吗？ (.) 替代方案的目的是什么？为什么不直接匹配 cmets 并用空字符串替换它们？
@Alan 我把它弄得太复杂了，确实可以省略替代方案。我简化了答案