【问题标题】:Duplicating a Pandas DF N times复制 Pandas DF N 次
【发布时间】:2014-02-18 13:09:08
【问题描述】:

所以现在,如果我有多个列表,即x = [1,2,3]* 2 I get x as [1,2,3,1,2,3],但这不适用于 Pandas。

因此,如果我想复制 PANDAS DF,我必须将一列设为列表和多个:

col_x_duplicates =  list(df['col_x'])*N

new_df = DataFrame(col_x_duplicates, columns=['col_x'])

然后对原始数据做一个join:

pd.merge(new_df, df, on='col_x', how='left')

这现在将 pandas DF 复制了 N 次,有没有更简单的方法?或者更快捷的方式?

【问题讨论】:

标签: python list pandas


【解决方案1】:

实际上,既然你想复制整个数据框(而不是每个元素),numpy.tile() 可能会更好:

In [69]: import pandas as pd

In [70]: arr = pd.np.array([[1, 2, 3], [4, 5, 6]])

In [71]: arr
Out[71]: 
array([[1, 2, 3],
       [4, 5, 6]])

In [72]: df = pd.DataFrame(pd.np.tile(arr, (5, 1)))

In [73]: df
Out[73]: 
   0  1  2
0  1  2  3
1  4  5  6
2  1  2  3
3  4  5  6
4  1  2  3
5  4  5  6
6  1  2  3
7  4  5  6
8  1  2  3
9  4  5  6

[10 rows x 3 columns]

In [75]: df = pd.DataFrame(pd.np.tile(arr, (1, 3)))

In [76]: df
Out[76]: 
   0  1  2  3  4  5  6  7  8
0  1  2  3  1  2  3  1  2  3
1  4  5  6  4  5  6  4  5  6

[2 rows x 9 columns]

【讨论】:

  • 谢谢,太好了!在大熊猫 df 上运行时,耻辱似乎太慢了!
  • 你知道有没有快捷的方法?
  • @redrubia 您是否多次调用 tile()?它可能会很慢,因为您每次都在分配额外的内存。如果您知道最终大小(在所有重复之后),您可以尝试初始化该大小的 zeros numpy 数组,然后使用切片填充它。
  • @redrubia 或者,如果您不需要修改重复的数据,请查看是否可以重构代码,以便将索引保存在某处并重复访问相同的数据帧,而不是创建一个新的平铺数据框。这样您就无需支付分配更多内存的成本。这是做同样事情的另一种方式:stackoverflow.com/questions/5564098/…
【解决方案2】:

这是使用 n DataFrame df 的副本制作 DataFrame 的单行代码

n_df = pd.concat([df] * n)

例子:

df = pd.DataFrame(
    data=[[34, 'null', 'mark'], [22, 'null', 'mark'], [34, 'null', 'mark']], 
    columns=['id', 'temp', 'name'], 
    index=pd.Index([1, 2, 3], name='row')
)
n = 4
n_df = pd.concat([df] * n)

那么n_df就是下面的DataFrame:

    id  temp    name
row         
1   34  null    mark
2   22  null    mark
3   34  null    mark
1   34  null    mark
2   22  null    mark
3   34  null    mark
1   34  null    mark
2   22  null    mark
3   34  null    mark
1   34  null    mark
2   22  null    mark
3   34  null    mark

【讨论】:

  • 请注意,这个答案会导致与接受的答案不同(即重复)的索引标签。这可能是也可能不是您想要的,具体取决于您的用例。我不认为 OP 对索引标签有任何偏好。
猜你喜欢
  • 1970-01-01
  • 2021-10-25
  • 1970-01-01
  • 2022-08-14
  • 2019-12-18
  • 2016-01-07
  • 2020-09-08
  • 1970-01-01
  • 2018-01-06
相关资源
最近更新 更多