【发布时间】:2021-01-13 06:42:52
【问题描述】:
我正在 prod 中运行一个 rust Tokio 应用程序。在上一个版本中我有一个错误,一些请求导致我的代码进入无限循环。
发生的情况是当进入无限循环的任务卡住时,所有其他任务继续正常工作并处理请求,直到停顿任务的数量高到足以导致我的程序无响应。
我的问题是我们的监控系统花了很多时间来识别出问题。例如:响应 kubernetes 健康检查的任务运行良好,但我无法确定我的系统中的任务已停止。
所以我的问题是在这种情况下我是否有办法识别和提醒?
例如:如果我能找到定义任务超时的方法,并且如果它在 X 秒/毫秒后没有返回到调度程序 - 此任务将标记为停止,这对我来说将是一个很好的解决方案。
【问题讨论】:
标签: rust monitoring rust-tokio