在开始制作爬虫前,我们应该做好前期准备工作,找到要爬的网站,然后查看它的源代码
我们这次爬豆瓣美女网站,网址为:https://www.dbmeinv.com/
用到的工具:pycharm ,这是它的图标
打开后,进入它的界面
接下来就是创建一个项目,
我们给它命名为Demo,准备工作做好后,就可以撰写一只爬虫了
1,我们先把这次需要用到的三个包先给它导进去
2,用request包获取网页数据,我们通过调用函数的方法实现操作
3,在网页上查看源代码,发现每张图片都是img标签,每个img标签又对应着一个src路径
4,用Beautifulsoup创建对象解析网页,找到所有img标签。
5,获得所有img的src路径
6,用urllib将获取的Src路径里的图片下载下来
但运行后出现错误
最后一行报错[Errno 2] No such file or directory: './image/0.jpg'没有这样的文件或目录,所以我们应先建一个文件来存放下载的图片
然后再次运行
可能觉得爬一个网页不过瘾,毕竟美女那么多
可以看出豆瓣网不止一页,接下来,我们就来爬取多个网页的美女图片
整体代码有部分改动,等等再一一细解
改动部分
把x=0移到第四行,是为了避免X=0被循环调用,以致图片被覆盖。
page=1,表示初次调用的是该网站的第一页,而.format(page)和最下面的.format(i)合起来就是page=i,就是显示网站的第i页。
7,查看我们是否成功爬到图片
答案就在这里啦,显而易见,是不是很动心呢,赶紧学起来吧,各种各样的美女图片都可以爬哦。