【发布时间】:2018-09-03 13:22:46
【问题描述】:
问题描述
我们遇到的问题如下。 Serving 配置为加载和服务 7 个模型,并且随着模型数量的增加,Serving 请求超时的频率更高。相反,随着模型数量的减少,请求超时是微不足道的。在客户端,超时设置为 5 秒。
有趣的是,最大批处理持续时间约为 700 毫秒,配置的最大批处理大小为 10。平均批处理持续时间约为 60 毫秒。
日志和截图
我们检查了 TensorFlow Serving 日志,但未发现任何警告或错误。此外,我们还监控了正在运行的 GPU 机器和向 Serving 执行推理请求的主机的网络,但均未发现网络问题。
暂时解决
减少加载和服务模型的数量,但这不是预期的解决方案,因为这需要设置多个不同的 GPU 实例,每个实例仅加载和服务模型的子集。
系统信息
操作系统平台和发行版(例如,Linux Ubuntu 16.04):Ubuntu 16.04
TensorFlow Serving 安装自(源代码或二进制文件):源代码
TensorFlow 服务版本:1.9
TensorFlow 服务在多个 AWS g2.2xlarge 实例上运行。我们使用 Docker 运行 TensorFlow Serving,基础镜像为nvidia/cuda:9.0-cudnn7-devel-ubuntu16.04
这种行为的路径原因可能是什么?在内存中加载多个模型时,Serving 如何处理请求?它如何改变模型上下文?
【问题讨论】:
标签: docker tensorflow tensorflow-serving