【发布时间】:2021-11-29 04:17:00
【问题描述】:
我是初学者,我正在探索 TMDB 10000 电影数据集,我发现以下预算和收入列:
b_0 = df[df['budget']==0].shape[0]/df.shape[0]*100
print('percentage of zero budget movies: ',b_0,'%')
零预算电影的百分比:52.425218591808566 %
b_r_0 = df[(df['revenue']==0) & (df['budget']==0)].shape[0]/df.shape[0]*100
零收入和预算电影的百分比:43.26737229636448 %
r_0 = df[df['revenue']==0].shape[0]/df.shape[0]*100
print('percentage of zero revenue movies: ',r_0,'%')
零收入电影的百分比:55.37045559134837 %
我确信预算/收入不能等于零,计算的统计数据(平均值、中位数、四分位数)由于零值而存在偏差,因此我不能将它们用于替换,也不能超过 40%数据。 我该如何解决这个问题?
【问题讨论】:
标签: python pandas dataframe data-analysis data-cleaning