网址:【数据挖掘】2019年最新python3 数据分析与数据爬虫实战
https://www.bilibili.com/video/av22571713/?p=42

1、快速了解数据分析与数据挖掘

什么是数据分析与数据挖掘

数据分析,就是对已知的数据进行分析,然后提取出一些有价值的信息,比如说统计出平均数,标准差等信息,数据分析的数据量有时可能不会太大,而数据挖掘是指对大量的数据进行分析和挖掘,得到一些未知的有价值的信息等,比如说从网站的用户或用户行为数据中挖掘出用户潜在需求信息,从而对网站进行改善等。数据分析与数据挖掘密不可分,数据挖掘是数据分析的提升。

数据分析一般是获得一些已知的东西,数据量不一定很大
数据挖掘一般是从已知的信息获得一些未知的东西,数据量比较大。
数据分析是数据挖掘的基础

数据分析和数据挖掘能做什么?

数据挖掘技术可以帮助我们更好的发现事物之间的规律。所以,我们可以利用数据挖掘技术实现数据规律的探索。比如说发现窃电用户、发掘用户潜在需求、实现信息的个性化推动、发现疾病与症状甚至疾病与药物之间的规律等

数据挖掘的过程

数据挖掘的过程主要有:
1、定义目标
2、获取数据(常用的方法有爬虫采集或者狭窄一些统计网站发布的数据)
3、数据探索
4、数据预处理(数据清洗【去掉脏数据】、数据集成【集中】、数据变换【规范化】、数据规约【精简】)
5、挖掘建模(分类、聚类、关联、预测)
6、模型评价与发布

2、数据分析与挖掘相关模块简介与安装

相关模块简介

1、numpy 可以高效处理数据、提供数组支持、很多模块都依赖他,比如说pandas\scipy\matplotlib都依赖他,所以这个模块是基础。
numpy是其他模块的基础,python不提供数组支持,一般是使用list,而numpy提供数组支持。
2、pandas 我们课程后续用的最多的一个模块,主要是进行数据探索和数据分析。
3、matplotlib 作图模块,解决可视化问题。
4、scipy 主要进行数值计算,同时支持举证运算,并提供了很多高等数据处理功能,比如说积分、傅里叶变换、微分方程求解等。
5、statsmodels 这个模块主要用于统计分析
6、gensim 这个模块主要用于文本挖掘
7、sklearn、keras前者机器学习、后者深度学习。

相关模块安装与技巧

模块安装的顺序与方式建议如下
1、numpy、mkl(下载安装)
2、pandas(网络安装)
3、matplotlib(网络安装)
4、scipy(下载安装)
5、statsmodels(网络安装)
6、Gensim(网络安装)、
这个模块安装我在别的地方写过,
网址:https://blog.csdn.net/fanhl111/article/details/88097091
网址:https://blog.csdn.net/fanhl111/article/details/88182335
可以参考这两个网址,下载安装是指去网址下载下来安装,网络安装是指在cmd里面用pip install 安装。
第三方库下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/

cd E:\FHLAZ\Python37\Anaconda3\Scripts
pip install numpy-1.16.2+mkl-cp37-cp37m-win_amd64.whl
pip install pandas
pip install matplotlib
pip install scipy-1.3.0rc1-cp37-cp37m-win_amd64.whl
pip install statsmodels
pip install gensim
相关模块基本使用
numpy模块

如果模块名太长,可以起别名
比如说:import numpy as nm

import numpy
#创建一维数组格式
#numpy.array([元素1,元素2,……,元素n])
x=numpy.array(["a","9","8","2"])
#创建二维数组格式
#numpy.array([[元素1,元素2,…,元素n],[元素1,元素2,…,元素n],…[元素1,元素2,…,元素n]])
y=numpy.array([[3,13,10],[1,12,13],[2,33,14]])
#排序sort()
x.sort()
y.sort()

数据分析与数据挖掘实战视频——学习笔记(六)

#取最大值和最小值
y1=y.max()
y2=y.min()
#切片(按照下标切开,取其中一部分)
#数组[起始下标:最终下标+1]如果起始位置省略不写,说明从开头开始,如果最终下标不屑,说明到最后结束
x1=x[1:3]#1:2
x2=x[:2]#0:1

数据分析与数据挖掘实战视频——学习笔记(六)
numpy模块暂时讲到这里。主要是数组的运算

pandas模块
#pandas模块
import pandas as pda
'''
pandas种常用的数据类型
Series 某一串数字  #index 索引
DataFrame  数据框
'''
a=pda.Series([8,9,2,1])
b=pda.Series([8,9,2,1],index=["one","two","three","four"])
c=pda.DataFrame([[5,6,2,3],[8,4,6,3],[6,4,5,31]])

d=pda.DataFrame([[5,6,2,3],[8,4,6,3],[6,4,5,31]],columns=["one","two","three","four"])#有默认列名和默认行名,columns指定列名

e=pda.DataFrame({
    "one":4,
    "two":[6,2,5],
    "three":list(str(983))
    })

数据分析与数据挖掘实战视频——学习笔记(六)

d.head()#默认取前五行
#d.head(行数)取前某行
d.tail()#默认取后五行
#d.tail(行数)取后某行
d.describe()#统计数据的基本情况
#count 元素个数
#mean平均数
#std 标准差
#min,max最小值,最大值
#25%,50%,75% 每一列的分位数对应的值(四分位数)

#转置
d.T

数据分析与数据挖掘实战视频——学习笔记(六)

3、Python数据导入实战

导入csv数据
#数据导入
import pandas as pda
i=pda.read_csv("E:/FHLAZ/Python37/python37_workspace/csv_document.csv")
i.describe()
i.sort_values(by="23")#按照“23”列的数据排序

数据分析与数据挖掘实战视频——学习笔记(六)

导入excel数据
j=pda.read_excel("E:/FHLAZ/Python37/python37_workspace/xls_document.xls")

导入mysql数据库里的数据
import pymysql
conn=pymysql.connect(host="127.0.0.1",user="root",passwd="root",db="hexun")
sql="select * from muhexun"
k=pda.read_sql()
导入html数据
导入文本数据

P46 046、答疑
P47 047、matplotlib基础 折线图-散点图
P48 048、直方图
P49 049、读取和讯博客的数据并可视化分析
P50 050、答疑
P51 051、数据探索与数据与清洗概述(一)
P52 052、数据探索与数据与清洗概述(二)
P53 053、数据分布探索实战
P54 054、数据集成实战
P55 055、答疑
P56 056、数据转换
P57 057、属性构造
P58 058、数据规约
P59 059、答疑
P60 060、文本挖掘 一
P61 061、文本挖掘 二
P62 062、答疑
P63 063、文本相似度分析一
P64 064、文本相似度分析二
P65 065、文本相似度分析三
P66 066、答疑
P67 067、Python数据建模概述
P68 068、Python数据分类实现过程
P69 069、常见分类算法
P70 070、knn算法(补录)
P71 071、KNN算法与贝克斯方法
P72 072、手写体数字识别
P73 073、答疑
P74 074、贝叶斯算法 上
P75 075、贝叶斯课程 (补录)
P76 077、回归算法
P77 078、决策树
P78 079、答疑
P79 080、决策树
P80 081、聚类
P81 082、答疑
P82 083、贝叶斯应用
P83 084、人工神经网络理论基础
P84 085、人工神经网络实现实战
P85 086、答疑
P86 087、Apriori算法与项目实战
P87 088、社交网络项目实战
P88 089、答疑
P89 090、微博接口开发上
P90 091、微博接口开发下
P91 094、文本分类及答疑

相关文章:

  • 2022-02-04
  • 2021-08-15
  • 2021-08-03
  • 2021-10-08
  • 2021-08-12
  • 2021-10-11
  • 2021-03-31
猜你喜欢
  • 2021-08-06
  • 2021-08-19
  • 2021-05-21
  • 2021-11-14
  • 2021-11-19
  • 2021-05-02
  • 2021-04-19
相关资源
相似解决方案