【问题标题】:calling variables for rule individually and adding an independent environment for a specific rule分别为规则调用变量并为特定规则添加独立环境
【发布时间】:2019-10-12 19:59:27
【问题描述】:

我需要在集群中运行一个 snakemake 规则,因此对于某些规则,我需要一些工具和库来加载,而这些工具是独立于/专有于其他规则的。在这种情况下,我如何在我的蛇形规则中指定这些。例如,对于rule score,我目前需要module load r/3.5.1export R_lib =/user/tools/software,我在运行snakemake 之前在命令行中分别运行这些行。但是,如果有办法在 env 的规则内做到这一点,那就太好了。

  1. 问题,

我有如下规则,

rule score:
    input:
        count=os.path.join(config['general']['paths']['outdir'], 'count_expression', '{sample}.tsv'),
        libsize=os.path.join(config['general']['paths']['outdir'], 'count_expression', '{sample}.size_tsv')
    params:
        result_dir=os.path.join(config['general']['paths']['outdir'], 'score'),
        cancertype=config['general']['paths']['cancertype'],
        sample_id=expand('{sample}',sample=samples['sample'].unique())
    output:
        files=os.path.join(config['general']['paths']['outdir'], 'score', '{sample}_bg_scores.tsv', '{sample}_tp_scores.tsv')
    shell:
        'mkdir -p {params.result_dir};Rscript {config[general][paths][tool]} {params.result_dir} {params.cancertype} {params.sample_id} {input.count} {input.libsize}'

我对上述代码 sn-p 的实际行为是:

shell:
        mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC GNMS4 MRT5T /cluster/projects/test/results/exp/MRT5T.tsv /cluster/projects/test/results/Exp/MRT5T.size.tsv

然而,预期的行为是:

shell:
        mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC MRT5T /cluster/projects/test/results/exp/MRT5T.tsv /cluster/projects/test/results/Exp/MRT5T.size.tsv

对于第二个样本,

shell:
        mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC GNMS4 /cluster/projects/test/results/exp/GNMS4.tsv /cluster/projects/test/results/Exp/GNMS4.ize.tsv

我需要变量sample_d ['GNMS4', 'MRT5T'] 应该单独使用,而不是放在一个shell命令行中。

【问题讨论】:

    标签: python function wildcard expand snakemake


    【解决方案1】:

    关于您的第一个问题:您可以将任何您喜欢的module loadexport 命令放在规则的shell 部分。

    关于您的第二个问题,您可能不应该在规则的params 部分使用expand。在expand('{sample}',sample=samples['sample'].unique()) 中,您实际上没有使用sample 通配符的值,而是在sample['sample'] 中生成所有唯一值的列表。您可能只需要在 shell 命令的定义中使用 wildcards.sample 而不是使用 params 元素。

    如果您想根据sample 的可能值运行score 规则的多个实例,您需要使用另一个希望score 的输出作为其输入的规则来“驱动”它。

    请注意,为了提高可读性,您可以使用 python 的多行字符串(三引号)。

    总结一下,你可以试试这样的:

    rule all:
        input:
            expand(
                os.path.join(
                    config['general']['paths']['outdir'],
                    'score',
                    '{sample}_bg_scores.tsv',
                    '{sample}_tp_scores.tsv'),
                sample=samples['sample'].unique())
    
    rule score:
        input:
            count = os.path.join(
                 config['general']['paths']['outdir'],
                 'count_expression', '{sample}.tsv'),
            libsize = os.path.join(
                 config['general']['paths']['outdir'],
                 'count_expression', '{sample}.size_tsv')
        params:
            result_dir = os.path.join(config['general']['paths']['outdir'], 'score'),
            cancertype = config['general']['paths']['cancertype'],
        output:
            files = os.path.join(
                config['general']['paths']['outdir'],
                'score', '{sample}_bg_scores.tsv', '{sample}_tp_scores.tsv')
        shell:
            """
            module load r/3.5.1
            export R_lib =/user/tools/software
            mkdir -p {params.result_dir}
            Rscript {config[general][paths][tool]} {params.result_dir} {params.cancertype} {wildcards.sample} {input.count} {input.libsize}
            """
    

    【讨论】:

      【解决方案2】:
      1. 我认为onstart 会起作用。请注意,试运行不会触发此处理程序,这在您的场景中是可以接受的。
      onstart:
         shell("load tools") 
      
      1. 简单的 bash for 循环应该可以解决问题。但是,如果您希望每个样本作为单独的规则运行,则必须使用样本名称作为 output 文件名的一部分。
      shell:
         '''
         for sample in {param.sample_id}
         do
            your command $sample
         done
         '''
      

      【讨论】:

      • 谢谢,但 onstart 对我没有帮助。但是,在 shell 中管道模块负载:确实有帮助。
      猜你喜欢
      • 2015-09-20
      • 2018-10-05
      • 1970-01-01
      • 1970-01-01
      • 2011-11-13
      • 1970-01-01
      • 2012-01-28
      • 1970-01-01
      • 2016-11-07
      相关资源
      最近更新 更多