【发布时间】:2021-07-25 20:01:07
【问题描述】:
动态范围量化的 tensorflow 文档指出:
在推理时,权重从 8 位精度转换为浮点数,并使用浮点内核进行计算。此转换只进行一次并缓存以减少延迟。
在动态范围量化中,激活值始终存储在浮点数 32 中,但是,它们在处理时转换为 8 位整数,并在处理完成后返回浮点数。
我很困惑,如果在推理时将权重转换为 float32,那么量化是如何完成的?
【问题讨论】:
标签: tensorflow tensorflow2.0 tensorflow-lite quantization-aware-training