关于数据分析
数据分析就是从现有的数据中挖掘出价值
应用领域:
商品推荐 :根据分析用户日常行为数据挖掘潜在用户
金融量化交易:指定股票的交易规则,战略,使用代码控制股票的买入卖出
视频网站推送:根据用户在网站所看视频的标签分类 精准推送用户感兴趣的视频从而增加用户粘性
数据分析的工作流程:
①:需求分析
明白分析什么数据,用什么工具进行分析,需要什么结果
②:数据采集
数据来源 1.公司内部自带 使用mysql mongodb直接调用即可
2.网络爬虫获取 编写代码 使用爬虫相关技能
3.第三方服务 花钱买数据
③:数据清洗
针对获取到的数据进行校验是否符合分析条件 过滤掉异常数据以及丢失的数据
④:数据分析
选择相应的计算公式 算法模型分析数据
⑤:生成数据
攥写分析报告并给出分析之后的规律及建议
⑥:数据可视化
将数据转换成图标的形式便于观察规律
numpy:数学计算模块 该模块是很多计算模块的底层模块
pandas:数据分析核心模块 用于excel表格操作
"""
既然excel软件可以非常轻松快捷的操作表格数据为什么还需要学pandas
当表格的数据低于10万行的时候采取excel软件操作方便
但是数据高于10万行之后使用excel软件就会出现卡顿不方便
所以pandas模块能够解决数据量较大的情况下的处理操作
"""
matplotlib:数据可视化
通过cmd pip3 install ipyhon
观察报错信息 添加这段话即可
直接ipython打开
进入一个全新的环境
""" 打开cmd之后直接输入ipython进入全新的编程环境 1.代码有提示 2.代码自动缩进 3.通篇颜色不单调 """
安装完成
输入jupyter notebook 会自动调用当前计算机默认浏览器打开一个界面
新建一个ipynb文件
notebook文件的后缀名是.ipynb 该文件无法以正常的双击直接打开
需要使用专门的notebook环境才可以打开并且查看内部的真实数据
以后看到该类型的文件就使用jupyter notebook打开
单词命令:
cell 单元格
cut 剪切
copy 拷贝
paste 粘贴
above 在...上面
below 在...下面
replace 替换
delete 删除
undo 撤销
split 切割
merge 合并
命令行模式与编辑模式
蓝色对应的是命令行模式
绿色对应的是编辑模式
两种模式的切换
鼠标点击即可
1.运行当前单元格 ctrl+enter 2.运行当前单元格并选中下方的单元格 shift+enter 3.如何书写md格式的标题 方式1:命令行模式下按m键 之后按照警号个数书写几级标题执行即可 方式2:编辑模式下先写文本 之后进入命令行模式按数字来控制几级标题 4.如何在当前单元格的下方新建一个单元格 命令行模式下按b键 5.如何在当前单元格的上方新建一个单元格 命令行模式下按a键 6.如何删除单元格 命令行模式下连续按两下d键 7.如何撤销删除 命令行模式下按z键
安装:
进入官网界面
选择个人版本
开始下载
同意安装
下一步选择非c盘的路径
安装完成
需要点击电脑左下方搜索按钮
搜索