1. map(function,iterable)函数:根据提供的函数做指定序列的映射
功能:函数
迭代:序列
map(lambda x,y:x + y,[1,3,5,7,9],[2,4,6,8,10]
2. filter(function,iterable)函数:过滤掉不符合元素的序列,序列的每个元素作为参数给函数判断,得到True和false,返回True
功能:函数
迭代:序列
过滤器(lambda x:x%2 == 1,list(range(10)))
3. reduce(function,iterable [,initializer]函数:参数序列中元素进行累计,函数需要有两个参数,对序列中1,2个数相加结果再加3,4 ...个数
功能:函数
迭代序列
[,initializer]:可选参数,初始值
reduce(lambda x,y:x * y,list(range(10)))
4.排序函数
5. lambda位置参数:表达式,返回的是表达式计算结果,表达式可以是条件语句,
expression1 if A else expression2:如果if为true返回ex1,否则ex2
6. sort方法与排序的函数
lst.sort()会按照升序列表重新排列并改变原始列表
排序(LST)会返回副本,原始列表不变
7. value_counts:Series.value_counts用来计算出现频率,返回Series以降序; df.apply(pd.value_counts)返回df
8. matplotlib plt.style.use('ggplot')设置图标样式;
DF。字段名.hist(仓= 15)创建直方图宽度为15,直方图X轴是元素,Y轴是元素的个数
9.箱线图:
它是用一组数据中的最小值,第一四分位数,中位数,第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上,则可以清晰地显示各组数据的分布差异,为发现问题,改进流程提供线索。
第一四分位Q1:从小到大排列第25%的数据
第二四分位Q2:从小到大排列第50%的数据,也是中位数
第三四分位Q3:从小到大排序第75%的数据
IQR四分位间距:第三四分位 - 第一四分位,即四分位间距框
最大值:Q3 + 1.5IQR
最小值:Q1-1.5IQR
异常值:Q3 + 3IQR Q3-3IQR
10. isin():在DataFrame中根据某属性选取指定条件的行df [df ['列名'] .isin(['l列名中的值'])]
11.pandas中栈和拆散
堆栈:堆叠
拆散:不要堆叠
数据层次化有两种如下图,一种是花括号,一种是表格;花括号只有列索引,表格有行列索引;堆将表格变成花括号,拆散将花括号变表格
12.数据分组groupby:类似数透表
在数据帧上进行分组轴= 0行= 1列,将函数用到各个分组并产生新值
df.groupby [ 'X', 'Y']:按照AB分组
df.groupby [ 'X']( 'd'):按照甲分组求d列
分组后得到的是可迭代对象,用列表迭代得到多个元组,每个元组第一个元素是组名,第二个是分组后的数据帧
df.groupby [ 'X'] get_group( 'A组名'):返回分组后的数据帧
df.groupby [ 'X']基团( 'A'):得到的关键是组名,值是数据帧的指数
总结:#要看得到那个组用get_group;要看分组的结构:序列,指数用组
多函数计算AGG:df.groupby( 'A')AGG([np.mean,np.sum])
13. sort_values(key =列名,升序= T / F):对关键字进行排序
14.pandas中切(X,箱,标签):将数值型数据划分为分类数据,不同数据划分成不同等级
X是进行划分的一位数组
仓参数如果为整数,将X等距划分;如果为序列,将X划分在序列中,不在序列中的返回楠
标签参数是否用标记代替返回值箱
15.dropna:删除一行楠
16. reset_index还原索引,set_index设置某列为单索引或复合索引