【问题标题】:2 .feather files with same data, completely different sizes?2 .feather 文件具有相同的数据,完全不同的大小?
【发布时间】:2021-12-08 12:29:06
【问题描述】:

我有 2 个基于相同数据的羽毛文件。唯一的区别是获取数据的方式。

文件 1 有一个查询列表,按月细分,每个查询都保存为单独的文件。然后将每个文件读入字典并在python中与pd.concat(dict[values])连接。

文件 2 是另一个查询列表,分为四个部分,每个部分都保存为单独的文件。然后通过我不熟悉的 R 中的某个过程连接每个文件。

读取两个文件后,我可以看到数据是相同的。相同的行数、总和等。

但是文件 1 是 3GB,文件 2 是 6GB。这是为什么呢?

【问题讨论】:

    标签: python r feather


    【解决方案1】:

    发生这种情况是因为 6GB 文件包含的块多于 3GB 文件。 分割的块文件越少,压缩效果越好。 比较使用和不使用“创建实体存档”选项的 WinRar 压缩。 值得一提的是,6GB 文件可能更适合随机读取。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-12-02
      • 1970-01-01
      • 2018-03-24
      • 1970-01-01
      • 2016-12-26
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多