【发布时间】:2015-12-25 09:36:28
【问题描述】:
例如,我想获取论坛http://www.xossip.com/showthread.php?t=1384077 的所有图片的链接。
当我检查图片(来自论坛帖子的大图)时,他们在常见的<img src="http://pzy.be/i/5/17889.jpg" border="0" alt=""> 上有类似的东西。
程序应该是什么来列出所需图像的所有 URL。如果可能的话,甚至下载它们。
我尝试了一些代码但卡住了。
import requests
from bs4 import BeautifulSoup
def spider(max_pages):
page = 1
while page <= max_pages:
url = 'http://www.xossip.com/showthread.php?t=1384077&page=' + str(page)
sourcecode= requests.get(url)
plaintext = sourcecode.text
soup = BeautifulSoup(plaintext)
for link in soup.findAll('img src'):
print (link)
page += 1
spider(1)
编辑
我想要论坛中的图片,但我想避免所有那些小缩略图、徽标、图标等。我观察到我需要的所有图像都有这种格式<img src="http://pzy.be/i/5/17889.jpg" border="0" alt="">
所以我需要上述格式的图像的所有链接,所以我需要程序遍历论坛的所有页面,使用 src、border=0、alt 优化图像,最后打印所有图像 url,如 pzy.be/ i/5/452334.jpg
【问题讨论】:
-
请在此处发布代码,并查看stackoverflow.com/help/mcve
-
对不起,我是新来的,我无法理解如何在此处粘贴代码
-
@sobolevn 完成添加
标签: python web-scraping beautifulsoup web-crawler