【发布时间】:2014-10-27 03:35:44
【问题描述】:
我的任务是从 Perl 的 html 链接中提取内部 html 文本。
这是一个例子,
<a href="www.stackoverflow.com">Regex Question</a>
我要提取字符串:Regex Question
请注意,内部文本可能像这样为空。这个例子得到一个空字符串。
<a href="www.stackoverflow.com"></a>
内部文本可能包含多个这样的标签。
<a href="www.stackoverflow.com"><b><h2>Regex Question</h2></b></a>
我尝试编写 Perl 正则表达式有一段时间了,但没有成功。特别是,我不知道如何处理多个标签。
【问题讨论】:
-
为什么使用正则表达式而不是解析器?
-
实际上,与他们“交易”是什么意思。如果在 a-tags 之间,它们将被匹配,对吗? Perl 有一些非常好的 html 解析器模块可用。