【发布时间】:2017-09-01 17:51:57
【问题描述】:
我正在尝试使用以下代码将多个 excel 文件与 pandas 合并:
import pandas as pd
from os.path import basename
df = []
for f in ['test1.xlsx', 'test2.xlsx']:
data = pd.read_excel(f, 'Sheet1')
data.index = [basename(f)] * len(data)
df.append(data)
df = pd.concat(df)
df.to_excel("merged_data2.xlsx")
这在测试文件上运行良好,但在其他 3 个大小超过 100mb 的 excel 文件上尝试时,过程变得太慢而无法使用。我看到了关于这个主题的另一个帖子:Why does concatenation of DataFrames get exponentially slower?
而且我相信我已经正确地遵循了在连接之前使用列表但没有成功的建议。有任何想法吗?谢谢。
【问题讨论】:
标签: python excel performance pandas concatenation