【发布时间】:2020-04-23 20:44:54
【问题描述】:
我正在部署一个深度学习模型并将 keras 模型保存为 .h5 文件。我认为复杂的模型会使其尺寸变大,因此在服务器上的交互会变慢,但是除了减少模型中的层之外,我还能做些什么呢?是否有一种压缩 .h5 文件以便为服务器更快地加载它的方法?
谢谢
【问题讨论】:
标签: tensorflow keras deployment deep-learning
我正在部署一个深度学习模型并将 keras 模型保存为 .h5 文件。我认为复杂的模型会使其尺寸变大,因此在服务器上的交互会变慢,但是除了减少模型中的层之外,我还能做些什么呢?是否有一种压缩 .h5 文件以便为服务器更快地加载它的方法?
谢谢
【问题讨论】:
标签: tensorflow keras deployment deep-learning
有办法做到这一点。
您要查找的内容称为quantization。
不一定要减少相当于模型修剪的层数,quantization 通过修改权重的精度(甚至在某些情况下甚至是激活)来减少模型的大小和延迟。
有关更多详细信息,请阅读 TensorFlow 官方文档中的此页面:https://www.tensorflow.org/lite/performance/post_training_quantization
【讨论】: