【发布时间】:2015-02-26 23:15:31
【问题描述】:
使用 Pandas 内置方法和pickle.dump哪个更好?
标准的泡菜方法如下所示:
pickle.dump(my_dataframe, open('test_pickle.p', 'wb'))
Pandas 内置方法如下所示:
my_dataframe.to_pickle('test_pickle.p')
【问题讨论】:
-
为什么不只是对它们进行基准测试?
-
@tolanj 你所说的基准究竟是什么意思?我在下面的答案中包含了时间。
-
对于那些需要
panda.DataFrame序列化的良好基准的人:FastSerialization。 -
第一种方法更通用:假设您有自己的自定义文件系统和用于在其中打开文件的库。在这种情况下,
my_dataframe.to_pickle('my/weird/path')将无法正常工作,而pickle.dump(my_dataframe, my_weird_fs.open('/my/weird/path', 'wb'))将正常工作。