1762806175asd

本文对读取的csv文件,进行了求最大值、最小值、平均值、空值,最后绘制了箱式图。

1、输出数据集的基本信息

①全部数据集

1 data = pd.read_csv(r"C:\Users\Administrator\Desktop\catering_sale.csv",usecols=[0,1])
2 
3 # num = pd.Series(data,index=[i in range(size(data))])
4 print(data)

②最大值、最小值、平均值

 1 print(data.describe()) 

2、统计缺失的变量和样本个数

1 data_value = data[\'销量\'].shape[0] - data[\'销量\'].count()
2 print("缺失值数量:",data_value)
3 print("样本个数:",data[\'销量\'].shape[0])

3、通过箱式图判断异常点

①空点为异常点

 1 #解决中文显示问题
 2 plt.rcParams[\'font.sans-serif\'] = [\'KaiTi\'] # 指定默认字体
 3 plt.rcParams[\'axes.unicode_minus\'] = False # 解决保存图像是负号\'-\'显示为方块的问题
 4 fig,axes = plt.subplots()
 5 data.boxplot(column=\'销量\',ax=axes)
 6 # column参数表示要绘制成箱形图的数据,可以是一列或多列
 7 # by参数表示分组依据
 8  
 9 axes.set_ylabel(\'values of data\')
10 fig.savefig(r\'存储路径\')

②密集点外的为异常点

 1 #解决中文显示问题
 2 plt.rcParams[\'font.sans-serif\'] = [\'KaiTi\'] # 指定默认字体
 3 plt.rcParams[\'axes.unicode_minus\'] = False # 解决保存图像是负号\'-\'显示为方块的问题
 4 fig,axes = plt.subplots()
 5 data.boxplot(column=\'销量\',by=[\'日期\',\'销量\'],ax=axes)
 6 # column参数表示要绘制成箱形图的数据,可以是一列或多列
 7 # by参数表示分组依据
 8  
 9 axes.set_ylabel(\'values of data\')
10 fig.savefig(r\'存储路径\')

 

 

4、完整代码

 1 import pandas as pd
 2 import numpy as nm
 3 import matplotlib.pyplot as plt
 4 
 5 
 6 data = pd.read_csv(r"csv文件的绝对路径",usecols=[0,1])//usecols表示读出的列
 7 
 8 # num = pd.Series(data,index=[i in range(size(data))])
 9 print(data)
10 print(data.describe())
11 data_value = data[\'销量\'].shape[0] - data[\'销量\'].count()
12 print("缺失值数量:",data_value)
13 print("样本个数:",data[\'销量\'].shape[0])
14 
15 #解决中文显示问题
16 plt.rcParams[\'font.sans-serif\'] = [\'KaiTi\'] # 指定默认字体
17 plt.rcParams[\'axes.unicode_minus\'] = False # 解决保存图像是负号\'-\'显示为方块的问题
18 fig,axes = plt.subplots()
19 data.boxplot(column=\'销量\',by=[\'日期\',\'销量\'],ax=axes)
20 # column参数表示要绘制成箱形图的数据,可以是一列或多列
21 # by参数表示分组依据
22  
23 axes.set_ylabel(\'values of data\')
24 fig.savefig(r\'存储图片的路径\')

 

分类:

技术点:

相关文章: