【问题标题】:How to handle data if majority equals zero? Data cleaning如果多数为零,如何处理数据?数据清洗
【发布时间】:2021-11-29 04:17:00
【问题描述】:

我是初学者,我正在探索 TMDB 10000 电影数据集,我发现以下预算和收入列:

b_0 = df[df['budget']==0].shape[0]/df.shape[0]*100
print('percentage of zero budget movies: ',b_0,'%')

零预算电影的百分比:52.425218591808566 %

b_r_0 = df[(df['revenue']==0) & (df['budget']==0)].shape[0]/df.shape[0]*100

零收入和预算电影的百分比:43.26737229636448 %

r_0 = df[df['revenue']==0].shape[0]/df.shape[0]*100
print('percentage of zero revenue movies: ',r_0,'%')

零收入电影的百分比:55.37045559134837 %

我确信预算/收入不能等于零,计算的统计数据(平均值、中位数、四分位数)由于零值而存在偏差,因此我不能将它们用于替换,也不能超过 40%数据。 我该如何解决这个问题?

数据来源:https://www.google.com/url?q=https://d17h27t6h515a5.cloudfront.net/topher/2017/October/59dd1c4c_tmdb-movies/tmdb-movies.csv&sa=D&ust=1532469042115000

【问题讨论】:

    标签: python pandas dataframe data-analysis data-cleaning


    【解决方案1】:

    要知道什么是最佳解决方案,您必须了解数据来自的真实世界。

    平均数或中位数通常是最好的。

    您最好先用 Null 替换零,然后用中值或均值填充 Null。

    如果您需要代码来执行此操作,请告诉我

    【讨论】:

    • 如果我用中值或平均值填充空值,我不会将相同的值复制到另一半数据(最初为零)吗?那么我的数据可靠吗?
    • 这是常见的做法,也是您能做的最好的。另一种选择是用人口中更相关部分的平均值/中位数填充 Null。例如。用来自同一个 ganer 的电影的平均值填充它
    • 太棒了!谢谢你:)
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-02-04
    • 2019-03-15
    • 2021-11-21
    • 2018-07-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多