【发布时间】:2012-12-16 17:44:20
【问题描述】:
我需要 python 正则表达式从 html 中提取 url, 示例 html 代码:
<a href=""http://a0c5e.site.it/r"" target=_blank><font color=#808080>MailUp</font></a>
<a href=""http://www.site.it/prodottiLLPP.php?id=1"" class=""txtBlueGeorgia16"">Prodotti</a>
<a href=""http://www.site.it/terremoto.php"" target=""blank"" class=""txtGrigioScuroGeorgia12"">Terremoto</a>
<a class='mini' href='http://www.site.com/remove/professionisti.aspx?Id=65&Code=xhmyskwzse'>clicca qui.</a>`
我只需要提取:
http://a0c5e.site.it/r
http://www.site.it/prodottiLLPP.php?id=1
http://www.site.it/terremoto.php
http://www.site.com/remove/professionisti.aspx?Id=65&Code=xhmyskwzse
【问题讨论】:
-
欢迎来到 Stack Overflow!看起来您希望我们为您编写一些代码。虽然许多用户愿意为陷入困境的编码人员编写代码,但他们通常只有在发布者已经尝试自己解决问题时才会提供帮助。展示这项工作的一个好方法是包含您迄今为止编写的代码、示例输入(如果有的话)、预期输出和您实际获得的输出(控制台输出、堆栈跟踪、编译器错误 - 不管是什么适用的)。您提供的详细信息越多,您可能收到的答案就越多。
-
你的意思是href字段中的双引号。
-
1.请参阅@MartijnPieters 的回答。 2.Don't use a regex解析html!