第一步导入所需的库
一、评委打分
某比赛有1000名选手,300位评委打分,每个选手由三个不同的评委打分,每位评委打10位选手的分
现在需要将各个评委的编号转到列索引,行索引不变,表格内容为打分分数,缺失值(即选手i没有被评委j打分)用’-'填充
二、企业收入熵指数
一个企业的产业多元化水平可以由收入熵指数计算衡量,其公式为−Σ???? ???? ln???? ????
−ΣPilnPi
,其中i表示第i个收入类型,???? ????
Pi
表示该类型收入额所占整个收入额的比重(因此Σ???? ???? =1
ΣPi=1
),现在需要对Company.csv中的公司计算它们的年度收入熵,需要利用Company_data.csv中不同收入类型销售额的数据(证券代码都是六位,第一列数字需要补零),请计算结果并保存到data文件夹下
注意:不是所有要求计算的公司都会在data文件中出现,反之亦然;某公司某年的数据若含有缺失值,请基于收入熵公式选择一种合理的计算方式
三、端午节的淘宝粽子交易
问题
(1)请删除最后一列为缺失值的行,并求所有在杭州发货的商品单价均值。
(2)商品标题带有“嘉兴”但发货地却不在嘉兴的商品有多少条记录?
(3)请按照分位数将价格分为“高、较高、中、较低、低”5个类别,再将类别结果插入到标题一列之后,最后对类别列进行降序排序。
(4)付款人数一栏有缺失值吗?若有则请利用上一问的分类结果对这些缺失值进行合理估计并填充。
(5)请将数据后四列合并为如下格式的Series:商品发货地为xx,店铺为xx,共计x×人付款,单价为xx。
(6)请将上一问中的结果恢复成原来的四列。