【问题标题】:Are points beyond box plots whiskers outliers?超出箱线图的点是否为异常值?
【发布时间】:2019-01-08 09:18:27
【问题描述】:
我正在研究泰坦尼克号数据集,并发现在绘制箱线图后,存在大量异常值(超出胡须的点)。
不过,在检查了 Kaggle 上提供的答案后,我注意到人们并没有将这些点视为异常值。
所以,我想知道。是否总是低于 Q1 - 1.5*IQR 或高于 Q3 + 1.5*IQR 异常值?
如果不是,何时将它们视为异常值,何时不考虑?
这是a link of one of the answers。
此外,除了丢弃行之外,处理异常值的最佳方法是什么?
提前致谢!
【问题讨论】:
标签:
python
pandas
machine-learning
statistics
outliers
【解决方案1】:
“异常值”一词并不直接表示“无效数据点”。相反,这意味着数据点只是显示一个与批量分布相对较远的值。此外,您所说的“异常值”通常是主观的和特定问题的,因此“异常值”没有绝对标准(即 1.5*IQR 仅用于箱线图可视化目的)。如果我把现实过于简单化,大概有 3 种情况。
异常值显然完全在该实例性质的理论/实际限制范围内(例如体温为 38.0C,而其他值在 35.8-36.5C 范围内),这可能是不同情况发生的有力线索on(因此对建模/预测很有用)。
异常值显然远远超出了理论/实际限制(例如人类 500 岁),应将其视为“空”值
异常值是否在理论/实践限制之内/之外是未知的,因此需要领域专家的知识(在这种情况下,我们与特定领域的技术专家讨论,例如物理问题的物理学家)
因此,根据箱线图的定义,没有通用的方法来处理“异常值”,而是您应该了解数据集的性质并决定如何正确处理。