题外话(小编文组成成分的第一部分):
近期女朋友在写小编文,又要写文章还要配图,按照我的性格,干嘛要这么辛苦,给你写个软件一键生成就好了嘛,根据我的设想,我是先copy文章,再copy图片,然后组合一下就ok了。这篇文章主要讲解获取图片的细节,女朋友擅长写情感文章,于是我找到了一个网站叫清沫网,它的文章里有好多配图。
首先我们来看一下君子协定,也就是robots协议(不了解的可以百度一下),当然你完全可以不用理会它,但学会遵守规则不是件坏事。
截图放在下方:
我们来看下我们要的图片都在哪
框起来这些图就是我要的,数量多的不得了,看来这个网站积累了很久了,现在我们要用5分钟时间来拿到所有图片
接下来让我们看下源代码来解析一下这些图片的地址吧。这家网站把鼠标右键给屏蔽了,这根本拦不住我们好么,我这边就不写python脚本来抓源代码了,浏览器上直接看吧。Chrome浏览器的快捷键是Ctrl+u,其他的浏览器自己查查看吧。我这边展示一下我这边的图片。
你稍稍试验下就会发现,图片的地址是标注了430*230的jpg格式的地址
地址格式(我复制一个下来举个栗子):
http://www.semorn.com/wp-content/uploads/2018/11/640001-430x230.jpg
http://www.semorn.com/wp-content/uploads/2018/11/640001-430x230.jpg
额,感受一下,只有中间的不一样而已。不一样的地方我们用正则表达式处理就好了
这里顺便把网页的地址格式说明一下,其实也不用我说,图片来的更加直观:
额,应该看的明白吧,一个网页有好几张图,切换网页然后不断地获取图片。
过程其实很简单,总结一下:
1.得到各个网页的url规律(大家看到了,无非式不断+1)
2.然后得到每个网页上的图片地址,有了图片的地址,我们只要按照地址把图片保存到电脑上就好了。
下面是代码时间(python代码):
需要安装的第三方库 (requests库, re库 也就是正则表达式库)
安装过程:windows终端下 pip install python-requests
函数库的调用部分:
定义函数部分:
主函数:
成果展示:
虽然速度已经很快了,但是还是不够快,如果图片量特别大,建议采用多线程,速度会大幅提升
另外推荐一个微信公众号,里面都是我收集的一些技术书籍的电子版,整理给自己用的,后来想想完全可以开放出来,欢迎大家关注。