【发布时间】:2018-05-26 18:27:54
【问题描述】:
我遇到了越来越多使用 Docker 容器的数据科学家,以便进行可重复的分析。
问题:如何将数据下载/拉入 Docker 容器?
如果数据可以通过 URL 下载,你自然可以在 Dockerfile 中添加这样的一行
wget www.server_to_data.org/path/path/myfile.gz
但我的数据位于服务器上,用户 ssh 使用 ~/.ssh/id_rsa.pub 中的密钥对进入服务器。我不确定这如何在安全方面发挥作用。
在这种情况下,人们通常如何下载或访问您的数据?
可以挂载服务器,但我不确定如何在 Container/VM 中访问这些。
【问题讨论】:
-
如果您的数据需要访问凭据(尤其是交互式登录凭据),则不清楚它是否允许进行可重复的分析。我的意思是,您所在机构以外的人不会拥有访问数据所需的凭据。如果您的机构没有将研究数据集公开给外部用户的既定机制,您可能需要先解决这个问题。
-
话虽如此,可以使用绑定挂载 (
docker run -v $HOME/.ssh/id_rsa:/root/.ssh/id_rsa ...) 将私钥公开给容器,或者可以将密钥数据作为环境变量传入。
标签: docker dockerfile ssh-keys