python语言在数据分析有很多优势,特别方便,当然离不开很多优秀的库,本文讲述pandas方便的保存数据为csv文件,你可以不会用这个库,但是我今天讲的方法大家记忆下,很好用,再没有基础也能学会,后期教程这些都会更深入讲的
1、我构造了一个cont_list,结构为列表嵌套字典,字典是每一个样本,类似于我们爬虫爬下来的数据的结构
2、利用pd.DataFrame方法先将数据转换成一个二维结构数据,如下方打印的内容所示,cloumns指定列表,列表必须是列表
3、to_csv方法可以直接保存csv文件,index=False表示csv文件不加行序号
保存csv结果
应用到我们的爬虫代码,传入的con_list就是[{},{},{}****]这样的额数据结构,encoding="gb18030”,我这边解决中文编码问题
是不是很方便就,2行代码即可搞定保存,是不是比上次讲的方法简单好多,其实很多方法,还有python的优秀库,都使python这门语言在数据分析领域有极大的优势
但是,大家是否发现了问题,只有10组数据?这是什么原因?
分析下过程即可知道,因为我这里每遍历,每遍历一组数据,就返回一个con_list,所有后面的会覆盖前面的数据,导致最后只有10条数据,方法解决需要用到pandas中保存csv中mode参数a,追加保存的方式,这样就不会覆盖
但是一般我们不会去在程序运行时候保存,为什么呢?因为数据有很多脏数据,重复数据等等,一般我们会先保存数据库,然后经过方法处理后,差不多都是干净有用的数据,我们在统一保存csv文件,后面文章会讲这些方法
该篇文章不明白的留言,100多个爬虫、数据分析、机器学习源码已经上传知识星球(左侧为知识星球,右侧二维码为微信公众号)