本文对读取的csv文件,进行了求最大值、最小值、平均值、空值,最后绘制了箱式图。
1、输出数据集的基本信息
①全部数据集
1 data = pd.read_csv(r"C:\Users\Administrator\Desktop\catering_sale.csv",usecols=[0,1]) 2 3 # num = pd.Series(data,index=[i in range(size(data))]) 4 print(data)
②最大值、最小值、平均值
1 print(data.describe())
2、统计缺失的变量和样本个数
1 data_value = data[\'销量\'].shape[0] - data[\'销量\'].count() 2 print("缺失值数量:",data_value) 3 print("样本个数:",data[\'销量\'].shape[0])
3、通过箱式图判断异常点
①空点为异常点
1 #解决中文显示问题 2 plt.rcParams[\'font.sans-serif\'] = [\'KaiTi\'] # 指定默认字体 3 plt.rcParams[\'axes.unicode_minus\'] = False # 解决保存图像是负号\'-\'显示为方块的问题 4 fig,axes = plt.subplots() 5 data.boxplot(column=\'销量\',ax=axes) 6 # column参数表示要绘制成箱形图的数据,可以是一列或多列 7 # by参数表示分组依据 8 9 axes.set_ylabel(\'values of data\') 10 fig.savefig(r\'存储路径\')
②密集点外的为异常点
1 #解决中文显示问题 2 plt.rcParams[\'font.sans-serif\'] = [\'KaiTi\'] # 指定默认字体 3 plt.rcParams[\'axes.unicode_minus\'] = False # 解决保存图像是负号\'-\'显示为方块的问题 4 fig,axes = plt.subplots() 5 data.boxplot(column=\'销量\',by=[\'日期\',\'销量\'],ax=axes) 6 # column参数表示要绘制成箱形图的数据,可以是一列或多列 7 # by参数表示分组依据 8 9 axes.set_ylabel(\'values of data\') 10 fig.savefig(r\'存储路径\')
4、完整代码
1 import pandas as pd 2 import numpy as nm 3 import matplotlib.pyplot as plt 4 5 6 data = pd.read_csv(r"csv文件的绝对路径",usecols=[0,1])//usecols表示读出的列 7 8 # num = pd.Series(data,index=[i in range(size(data))]) 9 print(data) 10 print(data.describe()) 11 data_value = data[\'销量\'].shape[0] - data[\'销量\'].count() 12 print("缺失值数量:",data_value) 13 print("样本个数:",data[\'销量\'].shape[0]) 14 15 #解决中文显示问题 16 plt.rcParams[\'font.sans-serif\'] = [\'KaiTi\'] # 指定默认字体 17 plt.rcParams[\'axes.unicode_minus\'] = False # 解决保存图像是负号\'-\'显示为方块的问题 18 fig,axes = plt.subplots() 19 data.boxplot(column=\'销量\',by=[\'日期\',\'销量\'],ax=axes) 20 # column参数表示要绘制成箱形图的数据,可以是一列或多列 21 # by参数表示分组依据 22 23 axes.set_ylabel(\'values of data\') 24 fig.savefig(r\'存储图片的路径\')