【问题标题】:Modifying dataFrames inside a list is not working修改列表中的数据帧不起作用
【发布时间】:2018-10-03 20:10:19
【问题描述】:

我有两个DataFrames,我想执行相同的清理操作列表。 我意识到我可以合并为一个,并且一次通过所有内容,但我仍然很好奇为什么这种方法不起作用

test_1 = pd.DataFrame({
    "A": [1, 8, 5, 6, 0],
    "B": [15, 49, 34, 44, 63]
})
test_2 = pd.DataFrame({
    "A": [np.nan, 3, 6, 4, 9, 0],
    "B": [-100, 100, 200, 300, 400, 500]
})

假设我只想在没有NaNs 的情况下获取原始数据:我试过了

for df in [test_1, test_2]:
    df = df[pd.notnull(df["A"])]

test_2 保持不变。另一方面,如果我这样做:

test_2 = test_2[pd.notnull(test_2["A"])]

现在我的第一个 raw 走了。

【问题讨论】:

标签: python list pandas iteration


【解决方案1】:

所有这些切片/索引操作都会创建原始数据帧的视图/副本,然后您重新分配 df 到这些视图/副本,这意味着根本不会触及原始数据。

选项 1
dropna(...inplace=True)
尝试就地dropna 调用,这应该就地修改原始对象

df_list = [test_1, test_2]
for df in df_list:
    df.dropna(subset=['A'], inplace=True)  

请注意,这是其中一次我会推荐就地修改,特别是因为这个用例。


选项 2
enumerate 重新分配
或者,您可以重新分配到列表 -

for i, df in enumerate(df_list):
    df_list[i] = df.dropna(subset=['A'])  # df_list[i] = df[df.A.notnull()]

【讨论】:

  • 我觉得需要有一个关于“为什么我的 DataFrame 在操作 x 后没有更改”的规范 Q/A
  • @pault 是的,这是经常被问到的问题之一,但是在如此不起眼的标题下,无法在合理的时间内找到它们!从现在开始,我会将此问题添加为书签并将其保留在我的目标列表中:)
  • @pault 不是针对熊猫的,但我认为我们对这个问题有一个规范的答案here
  • 在答案@cᴏʟᴅsᴘᴇᴇᴅ 你说view。我也是这么想的,var 只是底层df 的一个视图,我正在修改它
【解决方案2】:

您正在修改数据帧的副本,而不是原始数据帧。

处理此问题的一种方法是使用字典。为方便起见,您可以将pd.DataFrame.pipe 与字典推导一起使用来修改您的字典。

def remove_nulls(df):
    return df[df['A'].notnull()]

dfs = dict(enumerate([test_1, test_2]))
dfs = {k: v.pipe(remove_nulls) for k, v in dfs.items()}

print(dfs)

# {0:    A   B
#     0  1  15
#     1  8  49
#     2  5  34
#     3  6  44
#     4  0  63,
#  1:      A    B
#     1  3.0  100
#     2  6.0  200
#     3  4.0  300
#     4  9.0  400
#     5  0.0  500}

注意:在您的结果中dfs[1]['A'] 仍然是float:这是因为np.nan 被认为是float,我们还没有触发到int 的转换。

【讨论】:

    【解决方案3】:

    通过使用pd.concat

    [x.reset_index(level=0,drop=True) for _, x in pd.concat([test_1,test_2],keys=[0,1]).dropna().groupby(level=0)]
    Out[376]: 
    [     A   B
     0  1.0  15
     1  8.0  49
     2  5.0  34
     3  6.0  44
     4  0.0  63,      A    B
     1  3.0  100
     2  6.0  200
     3  4.0  300
     4  9.0  400
     5  0.0  500]
    

    【讨论】:

      猜你喜欢
      • 2021-07-25
      • 1970-01-01
      • 2021-07-09
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-05-03
      相关资源
      最近更新 更多