在没有环境的情况下拉正则表达式匹配[重复]答案

【问题标题】：Pull regex match without its environment [duplicate]在没有环境的情况下拉正则表达式匹配[重复]
【发布时间】：2016-07-13 05:28:44
【问题描述】：

我想在 Python 中匹配给定表达式之间出现的任何内容。例如：

dogdogacowadogdog  <-- search a word between 'a' characters
<span>tiger<a>      <-- search for sth between <span> and <a>

我想只匹配这个 something 之间的东西，所以它分别是 cow 和 tiger。但是，当使用 reexes 时：

r'a(.*)a'
r'<span>(.*)<a>'

它会打印整行，而不仅仅是我要查找的内容（与 (.*) 匹配的内容）。如何获取这些信息？

【问题讨论】：

【解决方案1】：

您要查找的正则表达式是 non-greedy 匹配。

什么是非贪婪匹配？

.*、.+ 和 .? 尝试匹配尽可能多的字符。在这些字符尝试匹配尽可能少的字符后添加问号 (?)。 .*? 将匹配 0 个字符（如果可以），.+? 将匹配 1 个字符。

回到你的问题，你应该使用它作为你的正则表达式查询：

r'a(.*?)a'
r'<span>(.*?)<a>'

接下来是匹配本身：

如果您使用match =re.search()，您需要获得match.group(1) 而不是match.group(0) 才能接收群组本身。

match.group(0)给出了整场比赛（包括小组前后的部分）。

match.group(1) 只给出第一组。

match.groups() 但是只取出组（不是整场比赛），所以match.groups()[0] 将是第一组。

【讨论】：