【发布时间】:2010-12-07 13:35:41
【问题描述】:
我很难构建一个正则表达式来从 HTML 文本中获取一些单词。
假设我有以下内容:
<p style="padding-left :12px">SOME_TEXT_I_WANT</p><p>SOME_OTHER_TEXT</p>
*SOME_TEXT_I_WANT* 和 *SOME_OTHER_TEXT* 可以是诸如“SOME RANDOM TEXT”之类的一堆单词,也可以是诸如“<strong>SOME BOLD TEXT</strong>”之类的 HTML 文本
我的目标是用一个正则表达式提取这些文本。
【问题讨论】:
-
如果第二部分是
<p>some text<p>and some other text</p> and yet more text</p>呢?正则表达式和 HTML 总是很脆弱的组合。 -
在仇恨者开始之前,有一个关于html和RE的运动。 RE可以在一定程度上解析简单的html,并且可以做得很好。然而,就像 Piskvor 说的(我可以补充一下),“它很脆弱”;可行,但要小心你的来源。
标签: regex