张量流动态范围量化答案

【问题标题】：tensorflow dynamic range quantization张量流动态范围量化
【发布时间】：2021-07-25 20:01:07
【问题描述】：

动态范围量化的 tensorflow 文档指出：

在推理时，权重从 8 位精度转换为浮点数，并使用浮点内核进行计算。此转换只进行一次并缓存以减少延迟。

在动态范围量化中，激活值始终存储在浮点数 32 中，但是，它们在处理时转换为 8 位整数，并在处理完成后返回浮点数。

我很困惑，如果在推理时将权重转换为 float32，那么量化是如何完成的？

【问题讨论】：

【解决方案1】：

此外，TFLite 支持动态量化和激活的去量化以允许：

在可用时使用量化内核以加快实施速度。浮点内核与量化内核的混合图的一部分。

如果内核具有支持量化的优化路径，则浮点激活被量化以应用量化权重。

否则，激活将保持在浮点数中，权重将转换为浮点数以进行推理。

【讨论】：