【发布时间】:2014-07-06 10:42:29
【问题描述】:
我有许多 doubles(浮点数)的 1GB+ 大矩阵,其中许多是 0.0,需要有效存储。我打算保留double 类型,因为某些元素确实需要为double(但如果它可以节省大量空间,我可以考虑更改它)。字符串标头是可选的。矩阵没有缺失元素、NaN、NA、空值等:它们都是doubles。
有些列会稀疏,有些则不会。稀疏列的比例因文件而异。
什么是 CSV 的节省空间的替代方案?对于我的使用,我需要将这个矩阵快速解析为R、python和Java,因此特定于单一语言的文件格式是不合适的。可能需要按行或按列访问。
我也不是在寻找商业解决方案。
我的主要目标是节省硬盘空间,而不会炸毁io 次。导入后的 RAM 使用情况不是主要考虑因素。
【问题讨论】:
-
听起来你需要一个稀疏矩阵格式。
-
或者,您可能只是压缩文件,以压缩格式将其读入内存,然后在内存中解压缩。
标签: matrix storage sparse-matrix hdd space-efficiency