【发布时间】:2020-05-03 06:54:49
【问题描述】:
我正在编写python代码以从具有某些属性的某些img标签中提取data-src的值。我正在使用类属性,但它具有不同的值。
这是我从中提取的两个样本。
<img class="img-fluid lazy" data-src="https://d1bng4dn08r9r5.cloudfront.net/contents/cover-1588341903.png"
alt="Happy 1st day of the month????????"
src="https://www.simrankaurapp.com/img/icons/default-img.png" />
<img class="img-fluid lazy blur-img image5ea68b9463389011485bf592"
data-src="https://d1bng4dn08r9r5.cloudfront.net/contents/cover-1587973008.jpg"
alt="Everyday is more than just tongue-out tuesday????????"
src="https://www.simrankaurapp.com/img/icons/default-img.png" />
这是我的代码
elements = soup.findAll('img',{'class', 'img-fluid lazy'})
for element in elements:
print(element['data-src'])
我想同时抓取txt文件中的两个url,但无法抓取。页面也有无限滚动,如果页面我想到达底部。
【问题讨论】:
标签: python-3.x web-scraping beautifulsoup