【问题标题】:extract data-src value from img tag with specific attributes从具有特定属性的 img 标签中提取 data-src 值
【发布时间】:2020-05-03 06:54:49
【问题描述】:

我正在编写python代码以从具有某些属性的某些img标签中提取data-src的值。我正在使用类属性,但它具有不同的值。

这是我从中提取的两个样本。

<img class="img-fluid lazy"  data-src="https://d1bng4dn08r9r5.cloudfront.net/contents/cover-1588341903.png"
alt="Happy 1st day of the month????????"
src="https://www.simrankaurapp.com/img/icons/default-img.png" />

<img class="img-fluid lazy blur-img image5ea68b9463389011485bf592" 
      data-src="https://d1bng4dn08r9r5.cloudfront.net/contents/cover-1587973008.jpg"
alt="Everyday is more than just tongue-out tuesday????????"
src="https://www.simrankaurapp.com/img/icons/default-img.png" />

这是我的代码

elements = soup.findAll('img',{'class', 'img-fluid lazy'})
for element in elements:
    print(element['data-src'])

我想同时抓取txt文件中的两个url,但无法抓取。页面也有无限滚动,如果页面我想到达底部。

【问题讨论】:

    标签: python-3.x web-scraping beautifulsoup


    【解决方案1】:

    当前代码与确切的类匹配,但第二个图像标签有其他类。
    所以你可以尝试使用正则表达式来匹配它,希望对你有帮助。

    import re
    
    soup.find_all('img', {'class': re.compile('^img-fluid lazy.*')})
    

    您可以在此处找到更多信息: Find partial class names in spans with Beautiful Soup

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-10-14
      • 2013-04-06
      • 1970-01-01
      • 2022-10-21
      • 2021-07-27
      • 1970-01-01
      • 2017-12-13
      • 1970-01-01
      相关资源
      最近更新 更多