【发布时间】:2017-07-08 20:13:47
【问题描述】:
我有 10 个具有相同列和数据类型的 csv 文件。堆叠它们最快/最有效的方法是什么?
CSV1:
col1 | col2 | col3
1 | 'a' | 0.1
2 | 'b' | 0.8
CSV2:
col1 | col2 | col3
3 | 'c' | 0.4
4 | 'd' | 0.3
我可以用Pandas 读入它们并重复df.append 但这似乎很慢,因为我必须将所有内容读入内存,如果文件非常大,可能需要很长时间。想知道我是否可以使用 bash 命令或其他 Python 包更快地做到这一点。
我不希望使用具有任何严重依赖关系或需要编译的东西。
附:如果解决方案还可以自动处理存在于一个数据集中而不是另一个数据集中的列,则可以加分。
【问题讨论】:
-
你想创建 1 个包含所有数据的大 csv 文件吗?
-
这里有类似的东西(不使用熊猫):stackoverflow.com/questions/41982238/…