【发布时间】:2011-09-15 12:15:05
【问题描述】:
我正在寻找一个正则表达式,它可以在任何 html 字符串中查找所有空锚标记。 “空”表示其自身或其任何子节点中没有文本节点。
例如,应该找到这些:
<p>abc<a href="http://foo.com"></a>def</p>
<p>abc<a href="http://foo.com"><span></span></a>def</p>
<p>abc<a href="http://foo.com"><span><b></b></span></a>def</p>
这些不是:
<p>abc<a href="http://foo.com">Some text</a>def</p>
<p>abc<a href="http://foo.com"><span></span></a>def</p>
<p>abc<a href="http://foo.com">Some<span><b>Text</b></span></a>def</p>
正则表达式应该与 POSIX 兼容(我需要它用于 MySQL)。
为什么?
我需要它通过帮助自定义 regex_replace 函数删除 mysql 表列(使用纯 MySQL)中的空锚点,老实说,我不知道更好的方法来实现这一点。 MySQLs UpdateXML 不能同时用于多个匹配项。
【问题讨论】:
-
我需要查找一个 mysql 表,其中包含一个包含 html 代码的字段,并且需要用纯 MySQL 替换空锚。你知道其他方法吗?
-
试图用正则表达式解析 HTML 会导致悲伤。
标签: regex html-parsing