正则表达式带有换行符和空格的任何多个字符答案

【问题标题】：RegExp Expression any multiple characters with linebreaks and whitespaces正则表达式带有换行符和空格的任何多个字符
【发布时间】：2014-03-07 23:45:15
【问题描述】：

我的正则表达式用于查找文本中的某些单词，而不是元素文本中的单词。

正则表达式

RegExp('\\b([^<(.*?)>(.?+)<\/(.*?)>])(' + wregex.join('|') + ')\\b(?=\\W)

示例

This is some text that should be looked through
though this text <code>Should not be looked at </code> and this text is ok to 
look at

所以我将解释我遇到问题的正则表达式的方法

([^<(.*?)>(.?+)<\/(.*?)>]) 不匹配以<element> 开头的任何文本，直到</element>

这是最重要的，所以我尝试了多种方法，但不确定这个正则表达式是否可行。我不想匹配以基本 html 元素标记开头的任何内容，直到出现结束标记然后重新开始搜索。

编辑我知道 RegEx 不应该用于解析 HTML 这是通过 TEXT

测试示例HERE

【问题讨论】：

【解决方案1】：

假设您搜索的文本格式正确（例如，没有标签不匹配），以下正则表达式应该可以工作：

^([^<]*<([^>]*)>[^<]*</\2>)*[^<]Your Text

这通过在获取文本之前匹配所有开放和封闭集来确保您的文本位于开放和封闭标签集之外。

它不适用于嵌套标签。正则表达式无法解析任意嵌套的标签。

【讨论】：

【解决方案2】：

为什么要把所有东西都放在一个正则表达式中？它可以像这样简单。请注意，我使用[^] 而不是. 来匹配换行符。

string.replace(/<[^]+?<\/[^]+?>/, '').match(/what i really want to find/gi)

是的，这很容易损坏，就像任何正则表达式解决方案一样。

【讨论】：