【发布时间】:2012-01-27 16:08:34
【问题描述】:
是否有任何无损压缩方法可以应用于浮点时间序列数据,并且会显着优于将数据以二进制形式写入文件并通过 gzip 运行?
降低精度可能是可以接受的,但必须以可控的方式发生(即我必须能够设置必须保留多少位数的界限)
我正在处理一些大型数据文件,这些文件是一系列相关的doubles,描述了时间的函数(即值是相关的)。我通常不需要完整的 double 精度,但我可能需要更多 float。
由于图像/音频有专门的无损方法,我想知道是否有专门针对这种情况的方法。
澄清:我正在寻找现有的实用工具,而不是描述如何实现这样的东西的论文。在速度上可以与 gzip 相媲美的东西会非常好。
【问题讨论】:
-
你打算如何处理这些数据?你是在转移吗?使用前存放一段时间?只是想使用更少的内存?或者您是否专门寻找一种紧凑的方式来存储时间序列数据?
-
您说“无损”,但您也说“降低精度是可以接受的”。但是,降低精度是损失。
-
以受控方式降低精度是“有损压缩”。 “无损”意味着压缩然后解压缩会产生与原始数据完全相同的数据,逐位。如果结果只是一个近似值(通常以某种受控/有界的方式降级),那么这就是“有损压缩”。
-
你能抛开头发分裂@jameslarge 吗?它没有增加讨论。这种类型的“我必须是正确的”强迫性争论并没有使 StackOverflow 成为一个更好的地方。让我们专注于解决问题,好吗?
-
我看到你在 scicomp 上问了一个类似的问题并得到了一些很好的答案,所以我想确保这里有参考:scicomp.stackexchange.com/questions/1671/…
标签: compression floating-point time-series