【发布时间】:2019-08-29 08:55:03
【问题描述】:
我正在尝试使用 Python Beautiful soup 查找 html 文件文件夹中的所有图像,然后关闭所有 img 标签,以便将电子邮件放置在仅支持 XHTML 的系统中。
目前我有:
soup = BeautifulSoup(engage, "html.parser")
images = soup.find_all('img')
print(email_name + ": " + str(len(images)) + " images were found.")
soup.prettify()
这确实有效,并将提取我电子邮件中的所有图像,然后将它们与电子邮件名称和找到的图像数量一起输出。然而,这也针对已经关闭的图像。我希望它只找到类似的图像。
<img src="..." alt="...">
并让它忽略任何已经关闭的图像
<img src="..." alt="..."/>
然后去关闭所有其他的。最后再检查以确保没有遗漏。
在转向 BeautifulSoup 之前,我一直在研究正则表达式,并为仅查找关闭的图像而制作。
(<img[^>]+)(?<!/)/>
但我不确定如何使用 BeautifulSoup 来完成这项工作,或者即使有更 BS 的方式来做同样的事情。
任何帮助将不胜感激。
【问题讨论】:
标签: python python-3.x beautifulsoup