Panda索引分为
- 基于位置(整数)的索引
- 基于名称(标签)的索引
一、基于位置(整数)的索引
应用范围没有第二种广泛
- 1、行选取
目标:选取“流量来源”等于“一级”的所有列
思路:查看数据,一级实在索引0-6,但切片左闭右开,所以输入0:7,列全部选取,所以只用输入:
- 2、列选取
目标:选取所有渠道的流量来源和客单价
思路,流量来源在第一列,客单价第5列,对应索引0,4
值得注意的是,如果我们要跨列选取,得先把位置参数构造成列表形式,这里就是**[0,4],如果是连续选取,则无需构造成列表,直接输入0:5**(选取索引为0的列到索引为4的列)就好
- 3、行列交叉
二、基于名称(标签)的索引
-
1、选择一级渠道的所有行
目标:选取“流量来源”等于“一级”的所有列
返回的结果由True和False(布尔型)构成,在这个例子中分别代表结果等于一级和非一级。在loc方法中,我们可以把这一列判断得到的值传入行参数位置,Pandas会默认返回结果为True的行(这里是索引从0到12的行),而丢掉结果为False的行,直接上例子: -
2、选取所有渠道的流量来源和客单价
思路:选取所有行所以用:,选取的列时跨越的两列,用列表表示 -
3、提取二三级流量级别、来源明细对应的访客和支付转化率
思路: 行提取用判断,列提取输入具体名称参数 -
4、优质渠道——筛选
再判断各指标列是否大于均值
接下来我们只需要把这些值传入到行参数的位置。
到这一步,就直接筛选出4条关键指标都高于均值的优质渠道