【问题标题】:How to utilize resources fully如何充分利用资源
【发布时间】:2017-10-05 01:14:03
【问题描述】:

我正在训练 CNN 以使用 Tensorflow 对 CIFAR-10 数据集进行分类。我在 AWS p2.xlarge 实例(1 个 GPU、4 个 vCPU、61GB RAM)上运行 06_CIFAR-10.ipynb Jupyter Notebook。我使用Ubuntu 14 Tensorflow AMI 设置它。

训练需要很长时间。当我检查系统资源时,我发现大部分资源仍然可用。

$ free -h
         total       used       free     shared    buffers     cached
Mem:           59G       3.5G        56G        15M        55M       854M
-/+ buffers/cache:       2.6G        57G
Swap:           0B         0B         0B


$ top
top - 18:10:47 up  1:53,  1 user,  load average: 0.47, 0.63, 0.69
Tasks: 134 total,   1 running, 133 sleeping,   0 stopped,   0 zombie
%Cpu(s): 19.1 us,  4.6 sy,  0.0 ni, 73.2 id,  0.0 wa,  0.0 hi,  0.3 si,  2.8 st
KiB Mem:  62881764 total,  3695184 used, 59186580 free,    56792 buffers
KiB Swap:        0 total,        0 used,        0 free.   875028 cached Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                                                                                       
 2282 ubuntu    20   0  0.099t 2.192g 202828 S 248.2  3.7 141:55.88 python3                                                                                       


$ nvidia-smi 
Sat May  6 18:12:28 2017       
+------------------------------------------------------+                       
| NVIDIA-SMI 352.99     Driver Version: 352.99         |                       
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K80           On   | 0000:00:1E.0     Off |                    0 |
| N/A   54C    P0    67W / 149W |  11012MiB / 11519MiB |     54%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|    0      2282    C   /usr/bin/python3                             10954MiB |
+-----------------------------------------------------------------------------+

如何检测瓶颈在哪里?还有,有什么建议可以利用所有系统资源?

【问题讨论】:

    标签: amazon-web-services amazon-ec2 tensorflow deep-learning gpu


    【解决方案1】:

    您可以通过许多技巧和改进来实现高性能,例如确保使用高性能输入管道以及利用软件管道技术。不幸的是,如果没有关于您的具体设置的更多信息,我无法进一步诊断。

    有关背景阅读(提高性能的提示和技术),请参阅:

    我建议从开源的 tensorflow 基准测试脚本开始,可在以下位置获取:https://github.com/tensorflow/benchmarks

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-07-09
      • 2021-08-08
      • 2019-11-04
      • 1970-01-01
      • 2013-04-15
      相关资源
      最近更新 更多