如何从运行 google cloud ml 训练实例中收集性能指标？答案

【问题标题】：How to collect performance metrics from running google cloud ml training instances?如何从运行 google cloud ml 训练实例中收集性能指标？
【发布时间】：2017-07-01 21:03:01
【问题描述】：

我在谷歌云机器学习训练上运行一个模型，大约需要 10 个小时，对机器的形状进行了一些幼稚的猜测。我想对其进行一些优化以减少运行时间和总体成本。

确定我是否有效利用资源的最佳方法是什么？我想要 cpu 测量值、内存压力和 GPU 使用率（只要它们可用）。我怀疑我需要 1) 记录这些或 2) 安装像堆栈驱动程序这样的监控代理，并假设像 nvidia-smi 这样的东西是可定位的，但我很好奇是否有人尝试过。

【问题讨论】：

标签： tensorflow google-cloud-platform google-cloud-ml

【解决方案1】：

此功能现已内置到产品中 - CPU 和 RAM 使用指标（目前）作为 Stackdriver 指标发布。

指标视图也会显示在作业详细信息页面的控制台中。

希望对您有所帮助。

【讨论】：