【发布时间】:2021-03-15 14:23:57
【问题描述】:
我正在使用 SLURM 作为调度程序的集群中运行作业。我使用选项--gres=gpu:k80 指定GPU 卡的类型。但是,由于集群中的节点具有不同数量的卡,因此有时会出现 2 或 4 个。我可以通过以下方式查看可用设备:
echo $CUDA_VISIBLE_DEVICES
报告一个列表,0,1 或 0,1,2,3。我需要列表的最大值 1 或 3。这是我的问题:SLURM 中是否有一些选项可以知道这一点?
【问题讨论】:
-
那么从数组中获取最大的数字就足够了吗?
-
我正在使用以下 hack:
export num_dev=`echo $CUDA_VISIBLE_DEVICES | awk 'BEGIN{FS=","};{print NF}'`有效但似乎有点晦涩 -
我认为您应该以该列表的长度为目标。