【发布时间】:2010-11-25 12:22:51
【问题描述】:
我在数据清理中处理得最多的事情之一就是缺失值。 R 使用其“NA”缺失数据标签很好地处理了这个问题。在 python 中,似乎我将不得不处理屏蔽数组,这似乎是一个主要的痛苦设置并且似乎没有很好的文档记录。关于在 Python 中简化此过程的任何建议?这正在成为转移到 Python 进行数据分析的交易破坏者。谢谢
更新 显然我已经有一段时间没有查看 numpy.ma 模块中的方法了。似乎至少基本的分析函数可用于掩码数组,并且提供的示例帮助我理解了如何创建掩码数组(感谢作者)。我想看看Python中一些较新的统计方法(在今年的GSoC中正在开发)是否包含了这方面,并且至少做了完整的案例分析。
【问题讨论】:
-
为什么不使用 numpy.NaN 来识别缺失数据?
标签: python numpy data-analysis