【发布时间】:2018-07-25 13:52:34
【问题描述】:
我很难为以下内容找到正确的正则表达式
我想要的:三场比赛(John Doe, , Jane Doe)
问题在于可选的锚标记,并且可能有空结果。
要搜索的字符串:
<td class="character">
<a href=""> John Doe </a>
</td>
<td class="character">
</td>
<td class="character">
Jane Doe
</td>
到目前为止我的正则表达式:
@<td class="character">.*?(?:<a.*?>)?(.*?)(?:</a>)?.*?</td>@gms
链接到 regex101 https://regex101.com/r/9NRhjI/1
我知道您不应该使用正则表达式来解析 xml/html,但由于我只使用它来挖掘 html 的一小部分,它应该是可能的,对吧?
【问题讨论】:
-
试试这个:
<td[^>]+>\s+(?:<a[^>]+>)?\s+([^<]+?)\s+(?:</a>)?\s+</td>。顺便说一句,你真的应该看看@Zenoo的评论 -
非常感谢@Saud,这对我有用:)
-
@user2610665 当然可以。顺便说一句,我只是稍微改进了一下,如果你没有注意到的话