【发布时间】:2018-08-29 14:20:49
【问题描述】:
我正在尝试使用漂亮的汤和请求在 Python 中编写网站爬虫程序。我可以轻松收集我想要的所有文本,但我尝试下载的一些文本具有重要的内嵌图像。我想用它的标题替换图像,并将其添加到我以后可以解析的字符串中,但我不知道该怎么做。
这是我试图解析的那种 HTML 示例:
<td colspan="3"><b>"Assemble under Siegfried!"</b>
<a href="/wiki/index.php/File:Continuous.png" class="image" title="CONT"><img alt="CONT" src="/wiki/images/thumb/7/78/Continuous.png/14px-Continuous.png" width="14" height="17" srcset="/wiki/images/thumb/7/78/Continuous.png/21px-Continuous.png 1.5x, /wiki/images/7/78/Continuous.png 2x">
</a> This unit gains +10 attack for each
<a href="/wiki/index.php/File:Black.png" class="image" title="Black"><img alt="Black" src="/wiki/images/thumb/7/71/Black.png/15px-Black.png" width="15" height="15" srcset="/wiki/images/thumb/7/71/Black.png/23px-Black.png 1.5x, /wiki/images/thumb/7/71/Black.png/30px-Black.png 2x">
</a> and
<a href="/wiki/index.php/File:White.png" class="image" title="White"><img alt="White" src="/wiki/images/thumb/8/80/White.png/15px-White.png" width="15" height="15" srcset="/wiki/images/thumb/8/80/White.png/23px-White.png 1.5x, /wiki/images/thumb/8/80/White.png/30px-White.png 2x">
</a> ally besides this unit.
</td>
我想从这个 HTML 中提取:
“在齐格弗里德的带领下集结!继续,除了这个单位之外,每有一个黑白盟友,这个单位就会获得 +10 攻击力。”
使用普通的get_text() 方法不包含图像的标题,这就是问题所在。
【问题讨论】:
标签: python html web-scraping beautifulsoup python-requests