用 python 爬下了糗事百科的所有糗图(学习笔记3)
最近入了python爬虫的坑,在经过多次测试代码后终于写出了第一个爬取自己想要的数据的爬虫
接下来我来分享一下我的程序吧
-
首先需要进入糗事百科的糗图页面,分析页面代码和网址参数构成,提取出有用的信息,如页面的网址,网址参数,还有图片的链接等等,如下图:
其中我标记的便是图片的链接
做足功课后便可以开始写程序了 -
导入需要用到的库
-
构建函数
其中的 download 函数为该程序的核心,其中的正则表达式我认为是该程序最难之处 -
接下来便是程序的架构了
执行结果如下:
嗯,大功告成,0 error(s), 0 warning(s)