【问题标题】:Vectorized solution to conditional dataframe selection条件数据框选择的矢量化解决方案
【发布时间】:2016-05-19 04:28:06
【问题描述】:

我最近问了一个问题 - How do I add conditionally to a selection of cells in a pandas dataframe column when the the column is a series of lists?,但我相信有一个我以前没有考虑过的新问题。

在以下数据框中,我需要两个条件来更改列 dd 列中的每个值都是list

  • 其中a == b,d 中的最后一个整数加一。
  • 其中a != b,整数列表被扩展,值1被插入到d列中list的末尾。

    a       b       c           d           
    On      On      [0]         [0,3]       
    On      Off     [0]         [0,1]
    On      On      [0]         [2]         
    On      On      [0]         [0,4,4]         
    On      Off     [0]         [0]
    
  • 因此,数据框会是这样的:

    a       b       c       d       
    On      On      [0]     [0,4]       
    On      Off     [0]     [0,1,1]     
    On      On      [0]     [3]
    On      On      [0]     [0,4,5] 
    On      Off     [0]     [0,1]
    

我意识到这可以使用 pd.Series.apply 方法结合预定义函数或使用 lambda 来完成,但是数据框由 100000 行组成,我希望这两个条件的矢量化解决方案可能存在。

【问题讨论】:

  • 将非标量值存储为数据元素是不明智的做法,通常您会失去对矢量化方法的访问权限,因为 np 和 pandas 没有用于以矢量化方式附加到列表的矢量化方法
  • 我感觉可能是这样。作为 pandas 的新用户,捕获这些数据的更典型方法是什么?数据框每次大约有 50 万次更新,在 col a 和 col b 中产生不同的结果。如果a == b 则计数增加,如果a != b 需要开始新计数。

标签: python pandas conditional-statements vectorization


【解决方案1】:

作为 Edchum says,vecorised 解决方案可能存在问题。

一个带有apply自定义functions的非矢量化解决方案:

df['e'] = df['d']

def exten(lst):
    return lst + [1]

def incre(lst):
    lst[-1] = lst[-1] + 1
    return lst

df.loc[df.a != df.b, 'd'] = df.e.apply(exten)
df.loc[df.a == df.b, 'd'] = df.e.apply(incre)
df = df.drop('e', axis=1)
print df
    a    b    c          d
0  On   On  [0]     [0, 4]
1  On  Off  [0]  [0, 1, 1]
2  On   On  [0]        [3]
3  On   On  [0]  [0, 4, 5]
4  On  Off  [0]     [0, 1]

【讨论】:

  • 您好,非常感谢。这几乎正​​是我目前正在使用的(虽然你的函数更优雅!)但是由于行数,它的预期用途需要太长时间。
  • 是的,我试图找到更好的解决方案。但问题是:列clist,长度为1
  • 对不起,但我的矢量化方法比这个答案更慢。也许您可以尝试不要在列cd 中使用lists,如果没有必要的话。您可以检查this answerlists 转换为column。如果有必要,this answer 用于转换为 lists
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-11-10
  • 2019-10-18
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多