【问题标题】:How to collect performance metrics from running google cloud ml training instances?如何从运行 google cloud ml 训练实例中收集性能指标?
【发布时间】:2017-07-01 21:03:01
【问题描述】:

我在谷歌云机器学习训练上运行一个模型,大约需要 10 个小时,对机器的形状进行了一些幼稚的猜测。我想对其进行一些优化以减少运行时间和总体成本。

确定我是否有效利用资源的最佳方法是什么?我想要 cpu 测量值、内存压力和 GPU 使用率(只要它们可用)。我怀疑我需要 1) 记录这些或 2) 安装像堆栈驱动程序这样的监控代理,并假设像 nvidia-smi 这样的东西是可定位的,但我很好奇是否有人尝试过。

【问题讨论】:

    标签: tensorflow google-cloud-platform google-cloud-ml


    【解决方案1】:

    此功能现已内置到产品中 - CPU 和 RAM 使用指标(目前)作为 Stackdriver 指标发布。

    指标视图也会显示在作业详细信息页面的控制台中。

    希望对您有所帮助。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-03-20
      • 1970-01-01
      • 1970-01-01
      • 2017-03-09
      • 2018-10-28
      • 2017-11-08
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多