Pandas 按行查找第一个 nan 值并返回列名答案

【问题标题】：Pandas find first nan value by rows and return column namePandas 按行查找第一个 nan 值并返回列名
【发布时间】：2017-02-21 02:01:54
【问题描述】：

我有一个这样的数据框

>>df1 = pd.DataFrame({'A': ['1', '2', '3', '4','5'],
              'B': ['1', '1', '1', '1','1'],
              'C': ['c', 'A1', None, 'c3',None],
              'D': ['d0', 'B1', 'B2', None,'B4'],
              'E': ['A', None, 'S', None,'S'],
              'F': ['3', '4', '5', '6','7'],
              'G': ['2', '2', None, '2','2']})
>>df1

   A  B     C     D     E  F     G
0  1  1     c    d0     A  3     2
1  2  1    A1    B1  None  4     2
2  3  1  None    B2     S  5  None
3  4  1    c3  None  None  6     2
4  5  1  None    B4     S  7     2

然后我删除包含 nan valuesdf2 = df1.dropna()的行

   A  B     C     D     E  F     G   
1  2  1    A1    B1  None  4     2
2  3  1  None    B2     S  5  None
3  4  1    c3  None  None  6     2
4  5  1  None    B4     S  7     2

这是一个丢弃的数据框，因为这些行包含 nan 值。但是，我想知道他们为什么被丢弃？哪一列是“第一个 nan 值列”使该行被删除？我需要一个放弃的举报理由。

输出应该是

['E','C','D','C']

我知道我可以在每一列都做dropna 然后将其记录为原因但它确实效率不高。

有没有更有效的方法来解决这个问题？谢谢

【问题讨论】：

有什么理由用None代替NaN？您的问题的答案可能取决于...
好吧...只是举例。我不知道他们是不同的。不管怎样，np.nan 没问题。

标签： python pandas

【解决方案1】：

我认为您可以通过 DataFrame.isnull 创建布尔数据框，然后通过 boolean indexing 使用掩码过滤其中至少一个 True 通过 any 和最后一个 idxmax - 你得到第一个 True 的列名DataFrame的值：

booldf = df1.isnull()
print (booldf)
       A      B      C      D      E      F      G
0  False  False  False  False  False  False  False
1  False  False  False  False   True  False  False
2  False  False   True  False  False  False   True
3  False  False  False   True   True  False  False
4  False  False   True  False  False  False  False

print (booldf.any(axis=1))
0    False
1     True
2     True
3     True
4     True
dtype: bool

print (booldf[booldf.any(axis=1)].idxmax(axis=1))
1    E
2    C
3    D
4    C
dtype: object

【讨论】：

oooo 这是一个更好的方法，我总是忘记 any 和 all + 1
而且你还可以免费获得对应的行。
@juanpa.arrivillaga - 谢谢。
谢谢！！这就是我需要的！还要感谢@juanpa.arrivillaga

【解决方案2】：

我会使用itertools 和numpy.where 的组合，以及pd.DataFrame.isnull：

>>> df1.isnull()
       A      B      C      D      E      F      G
0  False  False  False  False  False  False  False
1  False  False  False  False   True  False  False
2  False  False   True  False  False  False   True
3  False  False  False   True   True  False  False
4  False  False   True  False  False  False  False
>>> from itertools import *
>>> r,c = np.where(df1.isnull().values)
>>> first_cols = [next(g)[1] for _, g in groupby(izip(r,c), lambda t:t[0])]
>>> df1.columns[first_cols]
Index([u'E', u'C', u'D', u'C'], dtype='object')
>>>

对于 Python 2，使用 itertools 中的 izip，而在 Python 3 中，只需使用内置的 zip。

【讨论】：