熊猫将数据框列单元格初始化为空列表答案

【问题标题】：pandas initialize dataframe column cells as empty lists熊猫将数据框列单元格初始化为空列表
【发布时间】：2016-09-21 18:11:50
【问题描述】：

我需要将DataFrame 列中的单元格初始化为lists。

df['some_col'] = [[] for _ in no_of_rows]

我想知道在时间效率方面是否有更好的方法来做到这一点？

【问题讨论】：

您接受的答案比您的起点慢 3 倍。
@Stefan 看来你是对的，因为apply(list) 确实比我的旧代码慢了一点。
所以正如您在下面看到的，使用itertools 可以更快一点，但我认为您实际上已经相当不错了，因为我没有看到比添加列更快的方法标准方法，但也许有人想出了一些魔法..

标签： python python-3.x pandas dataframe series

【解决方案1】：

由于您正在寻找时间效率，因此低于一些基准。我认为list 理解创建list 对象的空list 已经相当快了，但是您可以使用itertools.repeat 挤出一点点改进。在insert 部分，apply 慢 3 倍，因为它循环：

import pandas as pd
from itertools import repeat
df = pd.DataFrame({"A":np.arange(100000)})

%timeit df['some_col'] = [[] for _ in range(len(df))]
100 loops, best of 3: 8.75 ms per loop

%timeit df['some_col'] = [[] for i in repeat(None, len(df))]
100 loops, best of 3: 8.02 ms per loop

%%timeit 
df['some_col'] = ''
df['some_col'] = df['some_col'].apply(list)
10 loops, best of 3: 25 ms per loop

【讨论】：

【解决方案2】：

试试apply:

df1['some_col'] = ''
df1['some_col'] = df1['some_col'].apply(list)

示例：

df1 = pd.DataFrame({'a': pd.Series([1,2])})
print (df1)
   a
0  1
1  2

df1['some_col'] = ''
df1['some_col'] = df1['some_col'].apply(list)
print (df1)
   a some_col
0  1       []
1  2       []

【讨论】：

这在时间效率方面如何更好？
嗯，我认为在时间效率方面并没有更好。但由 OP 决定哪个答案标志被接受。也许你更喜欢我，因为我是第一，也许是因为喜欢。但也许在几秒钟内改变他的看法。我不知道。
还要注意lambda: [] 会比list 快。
只是问，因为问题是关于时间效率的，所以如果答案也尝试这样做是一件好事。
@Stefan 现在也许你的解决方案会被接受。