如何在本地 Kubernetes 或 OpenShift 集群上运行 Snakemake 工作流程？答案

【问题标题】：How to run Snakemake workflows on premise Kubernetes or OpenShift clusters?如何在本地 Kubernetes 或 OpenShift 集群上运行 Snakemake 工作流程？
【发布时间】：2020-09-30 18:40:52
【问题描述】：

我们正在尝试在 Kubernetes 本地基础架构上运行 Snakemake 工作流程。我们在 MapR 文件系统上更精确地使用 OpenShift OKD。

我们遵循official documentation 命令：

snakemake --kubernetes --use-conda --default-remote-provider $REMOTE --default-remote-prefix $PREFIX

但是为 --default-remote-provider 和 --default-remote-prefix 提供的命令行帮助并不清楚我们应该如何在本地 Kubernetes 或 OpenShift 集群上执行 Snakemake 管道：

--default-remote-provider: choose from 'S3', 'GS', 'FTP', 'SFTP', 'S3Mocked', 'gfal', 'gridftp', 'iRODS'

此外，官方文档指出：

在这种模式下，Snakemake 将假定所有输入和输出文件都存储在给定的远程位置，通过将 $REMOTE 设置为您选择的提供商（例如，GS 用于 Google 云存储或 S3 用于 Amazon S3）和 $PREFIX 进行配置到该远程存储中的存储桶名称或子文件夹。

所以我想知道：

应该如何继续将 Snakemake 工作流部署到本地 OpenShift/Kubernetes 安装？
是否有在本地集群上运行 Snakemake 的示例（例如 github repo 或博客）？
特别是，我不确定应该选择哪个远程提供程序，以及如何提供前缀（是否可以链接到 Kubernetes 持久卷声明？）

非常感谢您的帮助！

【问题讨论】：

标签： kubernetes openshift workflow snakemake

【解决方案1】：

不太熟悉本地 Kubernetes 设置，但 this segment of snakemake's documentation on cluster execution may help.

您强调的部分更多地与计算集群的云实现有关。

【讨论】：

很遗憾那个链接失效了，你的意思是snakemake.readthedocs.io/en/stable/executing/cloud.html吗？
@NathanaelFarley，谢谢，我也编辑了答案中的链接