【发布时间】:2017-06-09 19:58:35
【问题描述】:
通过此链接,我发现 Google Cloud Dataflow 为其工作人员使用 Docker 容器:Image for Google Cloud Dataflow instances
我发现可以找到 docker 容器的镜像名称。
但是,有没有办法我可以获取这个 docker 容器(即我应该从哪个存储库获取它?),修改它,然后指示我的 Dataflow 作业使用这个新的 docker 容器?
我问的原因是我们需要在我们的 docker 上安装各种 C++ 和 Fortran 以及其他库代码,以便 Dataflow 作业可以调用它们,但是这些安装非常耗时,所以我们不想使用“ df 中的 resource" 属性选项。
【问题讨论】:
-
技术上不是您问题的答案,但您可以使用 Google Cloud Dataproc 实现您想要的。 Dataproc 使用 Spark 而不是 Dataflow 运行您的代码,但本质上它实现了编写数据管道的完全相同的目标。 Dataproc 还支持自定义 Docker 映像。
-
查看 issues.apache.org/jira/browse/… 了解哪些 SDK 允许使用哪种容器。