【问题标题】:Floating point quantization from double to 8bit从 double 到 8bit 的浮点量化
【发布时间】:2016-04-01 09:49:51
【问题描述】:

如何将double precision floating point 舍入为可以存储在8bit floating point 中的值? 我正在尝试用数学方法来做,但我不知道该怎么做。

我有一个xdouble 号码,我应该找到最接近的y,我可以用n*2^bnb 整数和[-128,127] 中的n 表示。但是我怎样才能找到最好的nb

【问题讨论】:

    标签: floating-point rounding quantization


    【解决方案1】:

    我已经用这个算法解决了:

    function y = DoubleTo8bit( x )
    s=sign(x);
    x=abs(x);
    
    if x==0
        y=0;
        return; 
    end
    b=floor(log2(x)+1)-8+(s>0);
    m=s*round(x/2^b);
    
    y=m*2^b;
    end
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-04-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多