snakemake 使用脚本进行 shell I/O 重定向和访问snakemake 变量答案

【问题标题】：snakemake both shell I/O redirection and accessing snakemake variable using scriptsnakemake 使用脚本进行 shell I/O 重定向和访问snakemake 变量
【发布时间】：2018-02-08 12:37:26
【问题描述】：

问题很简单：
我想从一个规则中调用一个脚本，并且我希望这两个规则都适用：

执行标准输出和标准错误重定向
从脚本访问snakemake变量（变量可以是列表和文字）

如果我使用 shell: 那么，我可以执行 I/O 重定向，但我不能在脚本中使用 snakemake 变量。
注意：当然可以将变量作为参数从 shell 传递给脚本。但是，通过这样做，脚本无法区分文字和列表变量。
如果我改为使用script:，我可以访问我的snakemake变量，但我不能执行I/O重定向和许多其他shell工具。

一个例子来说明这个问题：
1) 使用shell:

rule create_hdf5:
    input:
        genes_file = OUTPUT_PATH+'/{sample}/outs/genes.tsv'
    params:
        # frequencies is a list!!!
        frequencies = config['X_var']['freqs']
    output:
        HDF5_OUTPUT+'/{sample}.h5'
    log:
        out = LOG_FILES+'/create_hdf5/sample_{sample}.out',
        err = LOG_FILES+'/create_hdf5/sample_{sample}.err'
    shell:
        'python scripts/create_hdf5.py {input.genes_file} {params.frequencies} {output} {threads} 2> {log.err} 1> {log.out} '

1) 的问题：自然，python 脚本认为频率列表中的每个元素都是一个新参数。然而，该脚本无法访问snakemake 变量。

2) 使用script:

rule create_hdf5:
    input:
        genes_file = OUTPUT_PATH+'/{sample}/outs/genes.tsv'
    params:
        # frequencies is a list!!!
        frequencies = config['X_var']['freqs']
    output:
        HDF5_OUTPUT+'/{sample}.h5'
    log:
        out = LOG_FILES+'/create_hdf5/sample_{sample}.out',
        err = LOG_FILES+'/create_hdf5/sample_{sample}.err'
    script:
        'scripts/create_hdf5.py'

2) 的问题：我可以访问脚本中的snakemake 变量。但是现在我不能使用 bash 的功能，比如 I/O 重定向。

我想知道是否有办法同时实现这两者（也许我在 snakemake 文档中遗漏了一些东西）？提前致谢！

【问题讨论】：

我可以将列表序列化为 JSON，然后将其作为参数传递给脚本并在脚本中反序列化。还有比这更优雅的实现方式吗？

标签： python snakemake

【解决方案1】：

如果可能，我建议您使用argparse 模块来解析脚本的输入，以便它可以使用nargs="*" 选项解析参数列表：

def main():
    """Main function of the program."""
    parser = argparse.ArgumentParser(
        description=__doc__,
        formatter_class=argparse.ArgumentDefaultsHelpFormatter)
    parser.add_argument(
        "-g", "--genes_file",
        required=True,
        help="Path to a file containing the genes.")
    parser.add_argument(
        "-o", "--output_file",
        required=True,
        help="Path to the output file.")
    parser.add_argument(
        "-f", "--frequencies",
        nargs="*",
        help="Space-separated list of frequencies.")
    parser.add_argument(
        "-t", "--threads",
        type=int,
        default=1,
        help="Number of threads to use.")
    args = parser.parse_args()
    # then use args.gene_file as a file name and args.frequencies as a list, etc.

你可以这样称呼它：

shell:
    """
    python scripts/create_hdf5.py \\
        -g {input.genes_file} -f {params.frequencies} \\
        -o {output} -t {threads} 2> {log.err} 1> {log.out}
    """

【讨论】：

对，整体使用 argparse 是一个好习惯。感谢您的回答，我正在以这种方式修改我的所有脚本。同时，我注意到argparse还有一个R实现：cran.r-project.org/web/packages/argparse/index.html

【解决方案2】：

您可以使用 snakemake.log 变量访问 Python 脚本中的日志文件名，这是一个包含两个文件名的列表：

snakemake.log = [ LOG_FILES+'/create_hdf5/sample_1.out', LOG_FILES+'/create_hdf5/sample_1.err' ]

因此，您可以在脚本中使用它来创建日志文件以进行日志记录，例如

import logging
mylogger = logging.getLogger('My logger')
# create file handler
fh = logging.FileHandler(snakemake.log[0])
mylogger.addHandler(fh)
mylogger.error("Some error")

【讨论】：