2 .feather 文件具有相同的数据，完全不同的大小？答案

【问题标题】：2 .feather files with same data, completely different sizes?2 .feather 文件具有相同的数据，完全不同的大小？
【发布时间】：2021-12-08 12:29:06
【问题描述】：

我有 2 个基于相同数据的羽毛文件。唯一的区别是获取数据的方式。

文件 1 有一个查询列表，按月细分，每个查询都保存为单独的文件。然后将每个文件读入字典并在python中与pd.concat(dict[values])连接。

文件 2 是另一个查询列表，分为四个部分，每个部分都保存为单独的文件。然后通过我不熟悉的 R 中的某个过程连接每个文件。

读取两个文件后，我可以看到数据是相同的。相同的行数、总和等。

但是文件 1 是 3GB，文件 2 是 6GB。这是为什么呢？

【问题讨论】：

【解决方案1】：

发生这种情况是因为 6GB 文件包含的块多于 3GB 文件。分割的块文件越少，压缩效果越好。比较使用和不使用“创建实体存档”选项的 WinRar 压缩。值得一提的是，6GB 文件可能更适合随机读取。

【讨论】：