【问题标题】:How do you access/pull data from an outside server into a Docker container?如何从外部服务器访问/拉取数据到 Docker 容器中?
【发布时间】:2018-05-26 18:27:54
【问题描述】:

我遇到了越来越多使用 Docker 容器的数据科学家,以便进行可重复的分析。

问题:如何将数据下载/拉入 Docker 容器?

如果数据可以通过 URL 下载,你自然可以在 Dockerfile 中添加这样的一行

wget www.server_to_data.org/path/path/myfile.gz

但我的数据位于服务器上,用户 ssh 使用 ~/.ssh/id_rsa.pub 中的密钥对进入服务器。我不确定这如何在安全方面发挥作用。

在这种情况下,人们通常如何下载或访问您的数据?

可以挂载服务器,但我不确定如何在 Container/VM 中访问这些。

【问题讨论】:

  • 如果您的数据需要访问凭据(尤其是交互式登录凭据),则不清楚它是否允许进行可重复的分析。我的意思是,您所在机构以外的人不会拥有访问数据所需的凭据。如果您的机构没有将研究数据集公开给外部用户的既定机制,您可能需要先解决这个问题。
  • 话虽如此,可以使用绑定挂载 (docker run -v $HOME/.ssh/id_rsa:/root/.ssh/id_rsa ...) 将私钥公开给容器,或者可以将密钥数据作为环境变量传入。

标签: docker dockerfile ssh-keys


【解决方案1】:

对于您目前的情况,您在服务器上获取数据,并且将密钥对分发给应该有权访问的人。如果您只想使用现有的基础架构而不更改它。可以通过为映像中的 ssh 密钥设置音量来完成,然后运行映像的人需要启动容器,并将音量设置为他们的 ssh 密钥。

使用 Dockerfile 在映像中设置卷:

FROM ubuntu 
#[RUN your installation process]
VOLUME /home/container_user/.ssh

通过将 ssh 密钥的位置安装到该卷来运行容器:

docker run -d -v PATH_TO_DRECITORY_HOLDING_SSH_KEY:/home/container_user/.ssh [OTHER OPTIONS] IMAGE[:TAG|@DIGEST] [COMMAND] [ARG...]

然后您可以下载数据作为容器启动时运行的脚本的一部分。

基本思想摘自How can I get my ~/.ssh keys into a docker container running locally?

也就是说,如果我们稍微支持一下这个问题,并询问人们将如何使用您的图像、图像将存储在哪里(公共或私人存储库)以及数据更改的频率可能是多少一些更用户友好的方式来满足需求。此外,如果您允许 docker-compose 作为容器运行的方式,那么您还可以使用其他一些选项。

【讨论】:

  • 您无需需要在 Dockerfile 中设置 VOLUME 以便在运行时使用卷。您可能不需要此位置的隐式匿名卷,因此可能不需要更改 Dockerfile。
  • @JeffRichards “如果您只想使用现有的基础架构而不更改它。”假设我有一个 python 算法,我希望用户在这些数据上运行。我习惯于编写 Dockerfile,从头开始安装 Linux、python、所有 python 库等。 Docker 容器是否有可能继承我们当前版本的软件并运行它?
  • @JeffRichards "另外,如果你允许 docker-compose 作为容器运行的方式,还有其他一些可供你使用的选项" 你能详细说明一下吗?
  • @EB2127 继承这个词对我来说有点模棱两可。但是,如果您的软件位于源代码控制存储库(git)中,您当然可以克隆/拉取该存储库作为构建过程的一部分,或者如果您希望每次运行容器时都更新它,则作为运行脚本的一部分。如果您的软件不在 git 存储库中,您仍然可以将其复制到映像中,使其成为映像的一部分。
猜你喜欢
  • 2021-01-06
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-07-14
相关资源
最近更新 更多