【发布时间】:2010-11-02 04:56:21
【问题描述】:
我正在尝试计算解压缩未知大小数据时使用的初始缓冲区大小。我有一堆来自现有压缩流的数据点,但不知道分析它们的最佳方法。
数据点是压缩后的大小和与未压缩大小的比率。 例如: 100425(压缩大小)x 1.3413(压缩比)= 134,700(未压缩大小)
压缩的数据流不存储未压缩的大小,因此解压缩器必须分配初始缓冲区大小并在溢出时重新分配。在给定压缩大小的情况下,我将寻找“最佳”初始大小来分配缓冲区。我有超过 293,000 个数据点。
【问题讨论】:
-
“最佳”根据什么目标?你想最小化或最大化什么?
-
2 个目标,避免初始缓冲区大小过大,并避免由于缓冲区不够大而导致过多的重新分配。我的压缩数据流从
-
您有关压缩率的统计数据将非常不正确,因为您的输入(预压缩)数据范围太大。尝试将您的样本分成几个范围,比如说一个从 0-10,000 字节,另一个从 10,001 到 1,000,000 字节,另一个从 1,000,001 到 10,000,000 字节等。然后您将获得更好的中位数和标准差。
标签: algorithm math compression statistics