【问题标题】:Mean of a column is an NaN value列的平均值是一个 NaN 值
【发布时间】:2021-07-17 19:38:54
【问题描述】:

我有一个包含 1900 万个数据的数据集。我正在尝试获取名为“volume”的列的平均值和标准。到目前为止,我已经用这些对应的行检查了数据并得到了结果:

df.volume.isnull().sum()

0

这是该列的统计信息(日志缩放以防止下溢问题)

df.volume.describe()

计数 = 1.92e+07

min = 0

中位数 = 6.51

最大值 = 10.9

均值 = NaN

标准 = 0.00

这是数据集体积列的箱线图

【问题讨论】:

  • df.volume.dtype 的输出是什么?

标签: pandas mean missing-data imputation underflow


【解决方案1】:

如果我不得不在没有看到数据的情况下进行猜测 - 当您记录值的日志时,您的数据中可能有一个 0 值,这会在取平均值时导致错误。

您可以尝试在 pandas 中使用 log1p() 函数。

【讨论】:

    猜你喜欢
    • 2013-09-12
    • 1970-01-01
    • 2013-09-12
    • 2019-03-21
    • 1970-01-01
    • 2013-04-01
    • 1970-01-01
    相关资源
    最近更新 更多