【发布时间】:2020-10-10 20:02:19
【问题描述】:
这是一个有点宽泛的话题,但我会尽量减少一些具体的问题。
在开始回答关于 SO 的问题时,我发现自己在制作玩具数据时有时会遇到这样的愚蠢错误:
In[0]:
import pandas as pd
df = pd.DataFrame({"values":[1,2,3,4,5,6,7,8,9]})
df[df < 5] = np.nan
Out[0]:
NameError: name 'np' is not defined
我已经习惯了用pandas 自动导入numpy,这在实际代码中通常不会发生。但是,这确实让我想知道为什么 pandas 没有自己的值/对象来表示空值。
我最近才意识到你可以只使用 Python None 来代替类似的情况:
import pandas as pd
df = pd.DataFrame({"values":[1,2,3,4,5,6,7,8,9]})
df[df < 5] = None
按预期工作并且不会产生错误。但是我觉得我所看到的关于 SO 的约定是使用np.nan,而人们在讨论空值时通常指的是np.nan(这也许是我没有意识到None 可以使用的原因,但也许那是我自己的特质)。
简要调查一下,我现在已经看到 pandas 确实自 1.0.0 以来具有 pandas.NA 值,但 我从未见过有人在帖子中使用它:
In[0]:
import pandas as pd
import numpy as np
df = pd.DataFrame({'values':np.random.rand(20,)})
df['above'] = df['values']
df['below'] = df['values']
df['above'][df['values']>0.7] = np.nan
df['below'][df['values']<0.3] = pd.NA
df['names'] = ['a','b','c','a','b','c','a','b','c','a']*2
df.loc[df['names']=='a','names'] = pd.NA
df.loc[df['names']=='b','names'] = np.nan
df.loc[df['names']=='c','names'] = None
df
Out[0]:
values above below names
0 0.323531 0.323531 0.323531 <NA>
1 0.690383 0.690383 0.690383 NaN
2 0.692371 0.692371 0.692371 None
3 0.259712 0.259712 NaN <NA>
4 0.473505 0.473505 0.473505 NaN
5 0.907751 NaN 0.907751 None
6 0.642596 0.642596 0.642596 <NA>
7 0.229420 0.229420 NaN NaN
8 0.576324 0.576324 0.576324 None
9 0.823715 NaN 0.823715 <NA>
10 0.210176 0.210176 NaN <NA>
11 0.629563 0.629563 0.629563 NaN
12 0.481969 0.481969 0.481969 None
13 0.400318 0.400318 0.400318 <NA>
14 0.582735 0.582735 0.582735 NaN
15 0.743162 NaN 0.743162 None
16 0.134903 0.134903 NaN <NA>
17 0.386366 0.386366 0.386366 NaN
18 0.313160 0.313160 0.313160 None
19 0.695956 0.695956 0.695956 <NA>
所以对于数值来说,这些不同的空值之间的区别似乎并不重要,但是对于字符串(也许对于其他数据类型?),它们的表示方式不同。
我的问题基于上述:
- 在
pandas中使用np.nan(而不是None)来表示空值是惯例吗? - 为什么
pandas在其生命周期的大部分时间里(直到去年)都没有自己的空值?添加的动机是什么? - 如果您可以在一个
Series或列中包含多种类型的缺失值,它们之间有什么区别吗?为什么它们的表示方式不同(与数字数据一样)?
我完全预料到我对事物的解释以及pandas和numpy之间的区别可能有缺陷,所以请纠正我。
【问题讨论】:
-
import numpy as np可以在整个pandas代码中找到。他们不鼓励使用pd.np,但鼓励您自己进行导入。它不会再占用任何“内存”。 -
如果列/系列是数字(整数),分配这些“NA”中的任何一个都会生成
float并插入np.nan。如果 object dtype(与 strings 列一样),则插入实际的np.nan、None或pd.NA。 -
np.nan是一个“IEEE 754 浮点”值,因此可以有效地用于数值运算(快速编译的整个数组numpy代码)。所以它可以通过任何别名使用,在数字 dtype Series 中很有意义。这不适用于 object dtype Series,因此可以在那里使用任何方便的对象。 -
@hpaulj 输入也不错,结合 ALollz 的回答很全面
标签: python pandas numpy null missing-data