【发布时间】:2015-08-15 17:48:23
【问题描述】:
我有一个小项目,我正在尝试从网页下载一系列壁纸。我是 python 新手。
我正在使用urllib 库,它返回一长串网页数据,其中包括
<a href="http://website.com/wallpaper/filename.jpg">
我知道我需要下载的每个文件名都有
'http://website.com/wallpaper/'
如何在页面源中搜索这部分文本,并返回图像链接的其余部分,以“*.jpg”扩展名结尾?
r'http://website.com/wallpaper/ xxxxxx .jpg'
我在想是否可以格式化一个不计算 xxxx 部分的正则表达式?只需检查路径和 .jpg 扩展名。然后在找到匹配项后返回整个字符串
我在正确的轨道上吗?
【问题讨论】:
-
您可以使用
regex,但不要。也许BeautifulSoup
标签: python regex string beautifulsoup html-parsing