【问题标题】:BeautifulSoup - find img with different extensionsBeautifulSoup - 查找具有不同扩展名的 img
【发布时间】:2020-06-04 15:16:36
【问题描述】:

我正在 django 中开展一个项目,我必须在 Text 列中提供的 .csv 文件中查找照片。问题是此时我只下载带有.jpg 扩展名的那些。如何下载扩展名为.png的一行,如下:

我正在使用 BeautifulSoup 这个任务。

soup = BeautifulSoup(row['Text'], features="html5lib")
images = soup.findAll('img', src=re.compile('.jpg'))

编辑: 下面是.csv 文件中的示例Text 列。

<wphimage data="{'FileId':6182,'Copyright':'John Smith','Alignment':'left','ZoomDisabled':false,'ImageOnly':false,'AlternativeText':'John Smith','ImageVersion':'conductorportraitlong','tabid':0,'moduleid':0}">
    <span style="display:block; float:left;" class="DIV_imageWrapper">
        <a data-lightview-title="Adela Frasineanu" data-lightview-caption="" class="lightview" href="//example.com/static/images/image.JPG">
                    <img src="//example.com/static/images/image.JPG" alt="John Smith">
                </a> 
               <a href="javascript:;">≡ <span>John Smith</span></a>
               <a class="A_zoom lightview" href="//example.com/static/images/image.JPG" data-lightview-title="John Smith" data-lightview-caption="">+ </a>
    </span>
</wphimage>

【问题讨论】:

  • 请添加一些文本列内容的示例。
  • @0buz 请立即查看。

标签: python django regex image beautifulsoup


【解决方案1】:

无论分机如何,您都可以获得所有srcs。

images = soup.find_all('img')
img_src=[img['src'] for img in images]

【讨论】:

    【解决方案2】:

    你快到了,试试这个:

    images = soup.findAll('img', src=re.compile('.*\.png', re.IGNORECASE))
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-08-16
      • 2012-11-30
      • 1970-01-01
      • 2015-07-27
      相关资源
      最近更新 更多