pandas总结 - 爱码网

1. map（function，iterable）函数：根据提供的函数做指定序列的映射

功能：函数

迭代：序列

map（lambda x，y：x + y，[1,3,5,7,9]，[2,4,6,8,10]

2. filter（function，iterable）函数：过滤掉不符合元素的序列，序列的每个元素作为参数给函数判断，得到True和false，返回True

功能：函数

迭代：序列

过滤器（lambda x：x％2 == 1，list（range（10）））

3. reduce（function，iterable [，initializer]函数：参数序列中元素进行累计，函数需要有两个参数，对序列中1,2个数相加结果再加3,4 ...个数

功能：函数

迭代序列

[，initializer]：可选参数，初始值

reduce（lambda x，y：x * y，list（range（10）））

4.排序函数

5. lambda位置参数：表达式，返回的是表达式计算结果，表达式可以是条件语句，

expression1 if A else expression2：如果if为true返回ex1，否则ex2

6. sort方法与排序的函数

lst.sort（）会按照升序列表重新排列并改变原始列表

排序（LST）会返回副本，原始列表不变

7. value_counts：Series.value_counts用来计算出现频率，返回Series以降序; df.apply（pd.value_counts）返回df

8. matplotlib plt.style.use（'ggplot'）设置图标样式;

DF。字段名.hist（仓= 15）创建直方图宽度为15，直方图X轴是元素，Y轴是元素的个数

9.箱线图：

它是用一组数据中的最小值，第一四分位数，中位数，第三四分位数和最大值来反映数据分布的中心位置和散布范围，可以粗略地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上，则可以清晰地显示各组数据的分布差异，为发现问题，改进流程提供线索。

第一四分位Q1：从小到大排列第25％的数据

第二四分位Q2：从小到大排列第50％的数据，也是中位数

第三四分位Q3：从小到大排序第75％的数据

IQR四分位间距：第三四分位 - 第一四分位，即四分位间距框

最大值：Q3 + 1.5IQR

最小值：Q1-1.5IQR

异常值：Q3 + 3IQR Q3-3IQR

10. isin（）：在DataFrame中根据某属性选取指定条件的行df [df ['列名'] .isin（['l列名中的值']）]

11.pandas中栈和拆散

堆栈：堆叠

拆散：不要堆叠

数据层次化有两种如下图，一种是花括号，一种是表格;花括号只有列索引，表格有行列索引;堆将表格变成花括号，拆散将花括号变表格

pandas总结

12.数据分组groupby：类似数透表

在数据帧上进行分组轴= 0行= 1列，将函数用到各个分组并产生新值

df.groupby [ 'X'， 'Y']：按照AB分组

df.groupby [ 'X']（ 'd'）：按照甲分组求d列

分组后得到的是可迭代对象，用列表迭代得到多个元组，每个元组第一个元素是组名，第二个是分组后的数据帧

df.groupby [ 'X'] get_group（ 'A组名'）：返回分组后的数据帧

df.groupby [ 'X']基团（ 'A'）：得到的关键是组名，值是数据帧的指数

总结：＃要看得到那个组用get_group;要看分组的结构：序列，指数用组

多函数计算AGG：df.groupby（ 'A'）AGG（[np.mean，np.sum]）

13. sort_values（key =列名，升序= T / F）：对关键字进行排序

14.pandas中切（X，箱，标签）：将数值型数据划分为分类数据，不同数据划分成不同等级

X是进行划分的一位数组

仓参数如果为整数，将X等距划分;如果为序列，将X划分在序列中，不在序列中的返回楠

标签参数是否用标记代替返回值箱

15.dropna：删除一行楠

16. reset_index还原索引，set_index设置某列为单索引或复合索引