【发布时间】:2017-07-01 21:03:01
【问题描述】:
我在谷歌云机器学习训练上运行一个模型,大约需要 10 个小时,对机器的形状进行了一些幼稚的猜测。我想对其进行一些优化以减少运行时间和总体成本。
确定我是否有效利用资源的最佳方法是什么?我想要 cpu 测量值、内存压力和 GPU 使用率(只要它们可用)。我怀疑我需要 1) 记录这些或 2) 安装像堆栈驱动程序这样的监控代理,并假设像 nvidia-smi 这样的东西是可定位的,但我很好奇是否有人尝试过。
【问题讨论】:
标签: tensorflow google-cloud-platform google-cloud-ml