【问题标题】:Slice pandas' MultiIndex DataFrame切片 pandas 的 MultiIndex DataFrame
【发布时间】:2017-03-28 10:23:53
【问题描述】:

为了跟踪参数化运行中的所有模拟结果,我在 pandas 中创建了一个名为 dfParRun 的 MultIndex 数据帧,如下所示:

import pandas as pd
import numpy as np
import itertools
limOpt = [0.1,1,10]
reimbOpt = ['Cash','Time']
xOpt = [0.1, .02, .03, .04, .05, .06, .07, .08]
zOpt = [1,5n10]
arrays = [limOpt, reimbOpt, xOpt, zOpt]
parameters = list(itertools.product(*arrays))
nPar = len(parameters)

variables = ['X', 'Y', 'Z']
nVar = len(variables)
index = pd.MultiIndex.from_tuples(parameters, names=['lim', 'reimb', 'xMax', 'zMax'])

dfParRun = pd.DataFrame(np.random.rand((nPar, nVar)), index=index, columns=variables)

为了分析我的参数化运行,我想对这个数据框进行切片,但这似乎是一种负担。例如,我希望 xMax 的所有结果都高于 0.5,lim 等于 10。此时,我找到的唯一工作方法是:

df = dfParRun.reset_index()
df.loc[(df.xMax>0.5) & (df.lim==10)]

我想知道是否有一种方法无需重置 DataFrame 的索引?

【问题讨论】:

    标签: pandas dataframe slice multi-index


    【解决方案1】:

    选项 1
    使用pd.IndexSlice
    警告:需要sort_index

    dfParRun.sort_index().loc[pd.IndexSlice[10, :, .0500001:, :]]
    

    选项 2
    在拥有reset_index 之后使用你的df

    df.query('xMax > 0.05 & lim == 10')
    


    设置

    import pandas as pd
    import numpy as np
    import itertools
    limOpt = [0.1,1,10]
    reimbOpt = ['Cash','Time']
    xOpt = [0.1, .02, .03, .04, .05, .06, .07, .08]
    zOpt = [1, 5, 10]
    arrays = [limOpt, reimbOpt, xOpt, zOpt]
    parameters = list(itertools.product(*arrays))
    nPar = len(parameters)
    
    variables = ['X', 'Y', 'Z']
    nVar = len(variables)
    index = pd.MultiIndex.from_tuples(parameters, names=['lim', 'reimb', 'xMax', 'zMax'])
    
    dfParRun = pd.DataFrame(np.random.rand(*(nPar, nVar)), index=index, columns=variables)
    df = dfParRun.reset_index()
    

    【讨论】:

    • 谢谢!似乎对索引进行排序是我对如何使用 DataFrame 的理解所缺少的。不排序,函数报错。
    猜你喜欢
    • 2017-05-08
    • 2020-09-10
    • 2016-08-05
    • 1970-01-01
    • 2018-12-29
    • 2020-06-29
    • 2014-05-24
    • 2021-01-03
    相关资源
    最近更新 更多