【发布时间】:2017-06-20 05:27:59
【问题描述】:
我正在尝试找到一种干净的方法来提取文本字符串中的所有 url。
经过广泛的搜索,我发现许多帖子建议使用正则表达式来完成任务,并且他们给出了假设这样做的正则表达式。每个 RegEx 都有一些优点和一些缺点。此外,编辑它们以改变它们的行为也不是直截了当的。无论如何,在这一点上,我对任何可以正确检测此文本中的 url 的 RegEx 感到满意:
输入:
Lorem ipsum dolor sit amet https://www.lorem.com/ipsum.php?q=suas, nusquam tincidunt ex per, ius modus integre no, quando utroque placerat qui no. Mea 结论 vituperatoribus et, omnes malorum est id, pri omnes atomorum expetenda ex。 Elit pertinacia no eos, noumy comprehensam id mei。 Ei eum maiestatis quaerendum https://www.lorem.org????。 Pri posse constituam in, 坐在http://news.bbc.co.ukomnium assentior definitionem ei。 Cu duo equidem meliore qualisque。
输出:
['https://www.lorem.com/ipsum.php?q=suas', 'https://www.lorem.org', 'http://news.bbc.co.uk']
但如果有一个 python3 类/函数/库,它会在给定文本中查找所有 url 并将参数传递给:
- 选择要检测的协议
- 选择允许的顶级域名
- 选择允许的域
我很高兴知道这件事。
【问题讨论】:
-
我认为你在写问题标题时睡着了..
-
也许吧。所以,我已经编辑了问题标题...
标签: python regex python-3.x url