最近在学习利用Python进行数据分析,为什么要学习数据分析呢?我们常常遇到这样一种情况,我们可能通过爬虫或者相关统计得到一系列的数据库表格信息,那么怎么从这些数据中得到我们想要的趋势和规律呢?当然是要通过数据分析来实现,它是相关工作岗位的要求,是python数据科学的基础,是机器学习的基础。
1、数据分析流程
数据分析其实就是使用恰当的方法对收集来的大量数据进行分析,帮助人么做出判断,以便采取适当措施。其基本流程如下图所示:
我们一般进行数据分析都需要先确定需要解决的问题,接着去准备数据,可以是本地数据库的,也可以是爬虫获得的,当然我们获得的数据也可能是冗余的,缺失的,需要我们来针对数据进行一个预处理,如数据清洗等等,接着对处理过的数据进行分析,最终将得到的结论可视化。
2、环境搭建:conda和jupyter的使用
1、Anaconda
在学习数据分析的时候,因为Anaconda上集成了很多我们所需要的环境,所以我选择安装Anaconda进行相关操作。
其下载官方地址为:https://www.anaconda.com/products/individual
可利用conda创建一个环境:
conda create --name python3 python=3
针对不同平台切换的方式不同:
Windows: activate python3
Linux/macos: source activte python3
2、jupyter notebook
jupyter notebook: 一款编程/文档/笔记、展示软件
启动命令:jupyter notebook
一般安装完Anaconda就可以直接切入,否则在相应的文件夹下打开即可进入,一般会进入一个网页版,你所新建的文件会保存于你打开jupyter notebook时所在的文件夹。
3、python相关库的主要处理对象
Matplotlib: 在数据分析中是来帮助我们进行画图的
Numpy: 针对数值类的数据进行分析,处理数值型的数组
pandas: 在numpy的基础上,不仅能够帮助我们处理数值型的数组,还可以处理字符串、时间序列、列表、字典等类型数据