【发布时间】:2020-04-20 07:33:05
【问题描述】:
几天前我刚刚开始学习网页抓取,并认为尝试将 Mangadex 抓取为一个迷你项目会很有趣。提前感谢您的建议!
我正在尝试通过使用 Beautiful Soup 4 和 Python 3.7 提取 img 标签的 src 属性来抓取图像
我感兴趣的 HTML 部分是:
<div class="reader-image-wrapper col-auto my-auto justify-content-center align-items-center noselect nodrag row no-gutters" data-state="2" data-page="1" style="order: 1;">
<img draggable="false" class="noselect nodrag cursor-pointer" src="https://s5.mangadex.org/data/554c97a14357f3972912e08817db4a03/x1.jpg">
</div>
我感兴趣的每张图片都包含一个以“https://s5.mangadex.org/data/”开头的 src 属性,所以我想也许我可以定位以该特定属性开头的图片。
我尝试使用 select() 查找 img 元素,然后使用 get() 查找 src,但在特定的 html 部分没有任何运气。
使用 select() 和 get() 的 HTML 部分是:
<img class="mx-2" height="38px" src="/images/misc/navbar.svg?3" alt="MangaDex" title="MangaDex">
<img src="/images/misc/miku.jpg" width="100%">
<img class="mx-2" height="38px" src="/images/misc/navbar.svg?3" alt="MangaDex" title="MangaDex">
【问题讨论】:
-
你有代码吗?
标签: python html web-scraping beautifulsoup