【问题标题】:How to use pandas query() to correctly reference multiindex column headers in the query expression?如何使用 pandas query() 在查询表达式中正确引用多索引列标题?
【发布时间】:2014-12-16 15:59:23
【问题描述】:

使用简单(单级)列索引,可以使用 .query() 访问 pandas DataFrame 中的列,如下所示:

df1 = pd.DataFrame(np.random.rand(10,2),index=range(10),columns=['A','B'])
df1.query('A > 0.5')

我正在努力在具有列多索引的 DataFrame 中实现类似:

df2 = pd.DataFrame(np.random.rand(10,2),index=range(10),columns=[['A','B'],['C','D']])
df2.query('(A,C) > 0.5') # fails
df2.query('"(A,C)" > 0.5') # fails
df2.query('("A","C") > 0.5') # fails

这可行吗?谢谢...

(至于动机:query() 似乎允许对行多索引 - 列单索引数据帧进行非常简洁的选择,例如:

df3 = pd.DataFrame(np.random.rand(6,2),index=[[0]*3+[1]*3,range(2,8)],columns=['A','B'])
df3.index.names=['one','two']
df3.query('one==0 & two<4 & A>0.5')

我想对两个轴上的多索引 DF 做类似的事情...)

【问题讨论】:

  • MultiIndexing 可能比它的价值更麻烦。当您需要它时,它会非常方便,但您通常不需要它。如果你想使用查询,我倾向于建议你重构你的 DataFrame。
  • 我想这是一个常见的问题,我很惊讶这个问题没有被发现。 #积压

标签: python pandas


【解决方案1】:

在 github 上有一个 open issue 用于此目的,但与此同时,一种建议的解决方法是通过 @ 表示法通过 DataFrame 变量引用该列:

df2.query("@df2.A.C > 0.5")

这不是一个完美的解决方法。如果您的标题名称/级别包含空格,您需要先删除/重命名它们。

【讨论】:

    猜你喜欢
    • 2014-07-10
    • 1970-01-01
    • 2014-09-05
    • 2012-07-09
    • 1970-01-01
    • 2021-11-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多