从 double 到 8bit 的浮点量化答案

【问题标题】：Floating point quantization from double to 8bit从 double 到 8bit 的浮点量化
【发布时间】：2016-04-01 09:49:51
【问题描述】：

如何将double precision floating point 舍入为可以存储在8bit floating point 中的值？我正在尝试用数学方法来做，但我不知道该怎么做。

我有一个xdouble 号码，我应该找到最接近的y，我可以用n*2^b 和n 和b 整数和[-128,127] 中的n 表示。但是我怎样才能找到最好的n 和b？

【问题讨论】：

【解决方案1】：

我已经用这个算法解决了：

function y = DoubleTo8bit( x )
s=sign(x);
x=abs(x);

if x==0
    y=0;
    return; 
end
b=floor(log2(x)+1)-8+(s>0);
m=s*round(x/2^b);

y=m*2^b;
end

【讨论】：