问题与练习

1. 问题

【问题一】 Series和DataFrame有哪些常见属性和方法?

对于一个Series,其中最常用的属性为:值(values),索引(index),名字(name),类型(dtype)

【问题二】 value_counts会统计缺失值吗?

不会统计缺失值
Day1---pandas基础

【问题三】 与idxmax和nlargest功能相反的是哪两组函数?

idxmin和nsmallest

【问题四】 在常用函数一节中,由于一些函数的功能比较简单,因此没有列入,现在将它们列在下面,请分别说明它们的用途并尝试使用。

sum/mean/median/mad/min/max/abs/std/var/quantile/cummax/cumsum/cumprod

  • sum
    对字符串类型进行拼接,对数值型数据进行求和
  • mean
    对数值型数据进行求平均值的操作,缺失值视为0(或忽略缺失值)
  • median
    对数值型数据求中位数,忽略缺失值
  • mad
    对数值型数据求平均绝对偏差
  • min
    对数值型数据求最小值,忽略缺失值
    对字符型数据求最小值,按字母排序
  • max
    对数值型数据求最大值,忽略缺失值
    对字符型数据求最大值,按字母排序
  • abs
    对数值型数据求绝对值
    若存在字符型数据,会报错
  • std
    对数值型数据求标准差
  • var
    对数值型数据求方差
  • quantile
    Day1---pandas基础
  • cummax
    返回DataFrame或Series轴上的累积最大值。
  • cumsum
    返回DataFrame或Series轴上的累积总和
  • cumprod
    通过DataFrame或Series轴返回累积乘积

【问题五】 df.mean(axis=1)是什么意思?它与df.mean()的结果一样吗?第一问提到的函数也有axis参数吗?怎么使用?

df.mean(axis=1)—>按行求平均值
df.mean()—>默认axis=0(列),即按列求平均值
可以有,将参数设置为asxis = 1

2. 练习

【练习一】 现有一份关于美剧《权力的游戏》剧本的数据集,请解决以下问题:

(a)在所有的数据中,一共出现了多少人物?Day1---pandas基础

(b)以单元格计数(即简单把一个单元格视作一句),谁说了最多的话?

Day1---pandas基础

(c)以单词计数,谁说了最多的单词?

首先,统计单词个数,并按Name进行排序
Day1---pandas基础
Day1---pandas基础
把name和Words拼接成元组列表
Day1---pandas基础
形成一个统计总数的列表
Day1---pandas基础

【练习二】现有一份关于科比的投篮数据集,请解决如下问题:

(a)哪种action_type和combined_shot_type的组合是最多的?

Day1---pandas基础

(b)在所有被记录的game_id中,遭遇到最多的opponent是一个支?

题意—打的比赛越多,那么遇到的对手也就最多
Day1---pandas基础
先将game_id与opponent组合在一起,然后去重,然后拿到去重后的opponent,最后统计个数

相关文章: