正则表达式去除标签，保留 CDATA [重复]答案

【问题标题】：Regex to strip tags, retain CDATA [duplicate]正则表达式去除标签，保留 CDATA [重复]
【发布时间】：2011-03-05 11:10:38
【问题描述】：

可能重复：
RegEx match open tags except XHTML self-contained tags

大家好，

我知道每个人都喜欢正则表达式问题，所以这是我的。我有一个 XML 树，其中一些节点包含 CDATA。如何只返回一个包含数据的字符串？

让我们看一个例子

<xml>
  <node>I'm plain text.</node>
  <node><![CDATA[I'm text in cdata... and may contain html, <strong>yikes!</strong>]]></node>
</xml>

会回来

I'm plain text. I'm text in cdata... and may contain html, yikes!

我读过关于不使用常规语言解析不规则语言的信息，但我确信这是可行的。大家觉得怎么样？

谢谢，凯文

编辑： 这是一个需要快速而肮脏的解决方案来处理几行 XML 的问题。我对最初的直接拒绝感到惊讶，但通过进一步阅读（特别是从稍后提供的链接）我看到有经验的程序员知道这是应该尽可能避免的事情。活到老，学到老。谢谢。

【问题讨论】：

【解决方案1】：

不要使用正则表达式，使用 XML/HTML 解析器。

这个问题已经被打死了。

【讨论】：

“没错，如果你试图用正则表达式解析 HTML，你就会屈服于黑暗之神 Cthulhu 的……呃……代码的诱惑” - Jeff Atwood。 codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html

【解决方案2】：

查看boilerpipe 的示例，了解解决此问题的难度。

【讨论】：