【发布时间】:2016-04-29 19:07:26
【问题描述】:
我正在尝试从字符串列表中提取 url。样品清单:
import re
p = ['<img class="alignnone size-full wp-image-2087" src="http://www.sample.com/test.jpg" alt="0wCR41v" width="540" height="720" srcset="http://www.sample.com/test-225x300.jpg 225w, http://www.sample.com/test.jpg 540w" sizes="(max-width: 540px) 100vw, 540px" />', '<img class="alignnone size-large wp-image-2133" src="http://www.sample.com/test2.jpg" alt="NtAboHF" width="583" height="1024" srcset="http://www.happyfridaygents.com/wp-content/uploads/2016/04/NtAboHF-768x1349.jpg 768w, http://www.sample.com/test2.jpg 583w, http://www.happyfridaygents.com/wp-content/uploads/2016/04/NtAboHF.jpg 828w" sizes="(max-width: 583px) 100vw, 583px" />']
我想提取紧跟在 src=" 部分之后的 http://www.sample.com/test.jpg 部分。
如果 p 只是一个这样的字符串,我可以使用 findall:
t = re.findall('src="(.+)" alt', p)
print t
但是如何遍历列表并返回 P 中所有 url 的列表?
【问题讨论】:
标签: python regex python-2.7