【问题标题】:storing a numpy array in csv greatly increases the file size在 csv 中存储一个 numpy 数组会大大增加文件大小
【发布时间】:2015-09-25 10:47:52
【问题描述】:

我有两个 csv 格式的文件。我正在对它们进行数据分析。我使用numpy.genfromtxt()file1.csv 加载到一个名为array1 的numpy 数组中,并将另一个文件加载到numpy 数组'array2' 中。

Size of file1: 80 
Size of file2: 10 MB

然后我将整个数据合并到一个 numpy 数组中。从数据中删除一些列后,我使用numpy.savetxt()将该numpy数组输出到一个csv文件中,但输出文件大小为700 MB

为什么会这样,我该如何解决?

【问题讨论】:

  • 你能把你拥有的代码归结为一个示范性的sn-p吗? How to Ask
  • 你的数组的 dtype 是什么?

标签: python csv numpy data-analysis


【解决方案1】:

您需要将fmt 参数传递给numpy.savetxt() 以指定用于数字的格式。默认格式 "%.18e" 生成 24 个字符长的科学记数法格式,并用尾随零填充。如果您知道您的 dtype 是 int32,则可以使用不进行填充的其他格式,例如普通的 "%d"

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-05-02
    • 2010-12-02
    • 1970-01-01
    • 2016-07-19
    • 1970-01-01
    • 1970-01-01
    • 2016-01-26
    相关资源
    最近更新 更多