【问题标题】:optimize parallelisation in SLURM cluster: the case of genome alignemnt优化 SLURM 集群中的并行化:基因组比对的情况
【发布时间】:2018-09-18 04:55:23
【问题描述】:

我想了解在 SLURM 集群中并行使用 bwa 的最佳方式是什么。显然,这将取决于我作为用户的计算限制。

bwa 软件有一个参数“-t”指定线程数。假设我使用bwa mem -t 3 ref.fa sampleA.fq.gz,这意味着 bwa 将作业拆分为三个任务/线程。换句话说,它将一次并行对齐三个读取(我猜)。

现在,如果我想在多个样本和 SLURM 集群中运行此命令,我是否应该像 bwa mem 一样指定任务数,并指定每个任务的 CPU 数(例如 2)?这将是:

sbatch -c 2 -n 3 bwa.sh

bwa.sh 包含的位置:

cat data.info | while read indv; do
bwa mem -t 3 ref.fa sample${indv}.fq.gz
done

你有什么建议吗?或者你能改进/纠正我的推理吗?

【问题讨论】:

    标签: parallel-processing slurm genome


    【解决方案1】:

    -c 2 要求每个任务有 2 个 CPU。

    使用-n 3,您要求执行 3 个任务。

    该配置准备了一组资源,其中包括最多 3 个不同节点中的 6 个 CPU。但是您的脚本只使用了 3 个 CPU (-t 3),因此您在浪费资源并且可能使用了不属于您的资源(因为该任务将使用 3 个 CPU,而您每个任务只要求 2 个 CPU)。

    对于该特定脚本,-c 3 是正确的参数(另一个默认为一个任务):

    sbatch -c 3 bwa.sh
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-12-02
      • 2018-11-11
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-10-31
      相关资源
      最近更新 更多