【发布时间】:2018-09-06 06:48:40
【问题描述】:
我需要解析来自 html 的链接,但其中的链接后面没有 'class="mw-disambig"'。我写了正则表达式
r'<a href="(.+?)"(?! class="mw-disambig")'
但它仍然会解析这样的东西
'https://ru.wikipedia.org/wiki/Тюльпан_(значения)" class='
原始html:
<a href="here was link" class="mw-disambig" title="Тюльпан"...>
不应该加还是没看懂?
我做错了什么?
【问题讨论】:
-
请不要在正则表达式中这样做...H̸̡̪̯ͨ͊̽̅̾̎Ȩ̬̩̾͛ͪ̈́̀́͘ ̶̧̨̱̹̭̯ͧ̾ͬC̷̙̲̝͖ͭ̏ͥͮ͟Oͮ͏̮̪̝͍M̲̖͊̒ͪͩͬ̚̚͜Ȇ̴̟̟͙̞ͩ͌͝S̨̥̫͎̭ͯ̿̔̀ͅ使用BeautifulSoup
-
@Ben 我正在学习,所以我需要知道...
-
@Arzybek 你能更清楚你在这里的期望吗?如果您想匹配 没有 包含
class="mw-disambig"的 URL,那么匹配您提供的示例是正确的行为。 -
@err1100 是的,但我根本不想包含此链接
-
一般来说,我喜欢将debuggex.com 用于正则表达式。