【问题标题】:Are points beyond box plots whiskers outliers?超出箱线图的点是否为异常值?
【发布时间】:2019-01-08 09:18:27
【问题描述】:

我正在研究泰坦尼克号数据集,并发现在绘制箱线图后,存在大量异常值(超出胡须的点)。 不过,在检查了 Kaggle 上提供的答案后,我注意到人们并没有将这些点视为异常值。

所以,我想知道。是否总是低于 Q1 - 1.5*IQR 或高于 Q3 + 1.5*IQR 异常值? 如果不是,何时将它们视为异常值,何时不考虑?

这是a link of one of the answers

此外,除了丢弃行之外,处理异常值的最佳方法是什么?

提前致谢!

【问题讨论】:

    标签: python pandas machine-learning statistics outliers


    【解决方案1】:

    “异常值”一词并不直接表示“无效数据点”。相反,这意味着数据点只是显示一个与批量分布相对较远的值。此外,您所说的“异常值”通常是主观的和特定问题的,因此“异常值”没有绝对标准(即 1.5*IQR 仅用于箱线图可视化目的)。如果我把现实过于简单化,大概有 3 种情况。

    1. 异常值显然完全在该实例性质的理论/实际限制范围内(例如体温为 38.0C,而其他值在 35.8-36.5C 范围内),这可能是不同情况发生的有力线索on(因此对建模/预测很有用)。

    2. 异常值显然远远超出了理论/实际限制(例如人类 500 岁),应将其视为“空”值

    3. 异常值是否在理论/实践限制之内/之外是未知的,因此需要领域专家的知识(在这种情况下,我们与特定领域的技术专家讨论,例如物理问题的物理学家)

    因此,根据箱线图的定义,没有通用的方法来处理“异常值”,而是您应该了解数据集的性质并决定如何正确处理。

    【讨论】:

      猜你喜欢
      • 2021-11-06
      • 1970-01-01
      • 2017-03-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-03-28
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多