int、int16、int32、int64、float、float16、float32、float64

在做模型量化的时候，经常遇到这几个类精度表示，做下记录：

类型		位
float16	半精读	2个字节
float32	float	4个字节
float64	双精度	8个字节

注：

bits：位数

bytes：字节 1bytes = 8 bits

单精度用小数用23位存储，加上默认的小数点前的1为1，2^(23+1) = 16777216.

因为10^7<16777216<10^8,所以说单精度浮点数的有效位数是7位。

双精度的小数位数是52位存储，2^(52+1) = 9007199254740992.

因为10^16<9007199254740992<10^17，所以双精度的有效位数是16位。

相关文章：

2021-06-16
2022-12-23
2021-11-05
2021-11-03
2022-12-23
2021-11-26

猜你喜欢

2021-11-27
2022-12-23
2022-12-23
2022-12-23
2022-12-23
2021-08-02

相关资源

下载 2022-12-11
下载 2022-12-27
下载 2022-12-14

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode