【发布时间】:2019-01-04 02:15:15
【问题描述】:
我有一个带有一群工人的 gce 气流(作曲家)集群:
$ kubectl get pods
NAME READY STATUS RESTARTS AGE
airflow-redis-0 1/1 Running 0 7h
airflow-scheduler 2/2 Running 0 7h
airflow-sqlproxy 1/1 Running 0 8h
airflow-worker 50/50 Running 0 7h
composer-fluentd-daemon 1/1 Running 0 7h
composer-fluentd-daemon 1/1 Running 0 7h
我还有一堆独特的持久 NFS 卷,其中包含需要处理的数据。有没有办法将不同的 NFS 卷动态挂载到每个相应的工作人员。
或者,是否可以在工作程序中调用 DockerOperator 来挂载与其特定工作负载相关的 NFS 卷。
理论上工作流程是:Spin up 1x worker per Dataset > Get Dataset > Run Dataset through Model > Dump results
实现此目的的一种方法是将数据集下载到正在处理它的给定 pod;但是,这些数据集每个有数百 GB,需要针对不同的模型进行多次处理。
最终我们计划将所有这些数据放在 BigTable 中,但我需要在概念上证明使用具有数百 GB 数据的卷,然后才能获得批准以启动具有多个 tb 数据的 BigTable 集群在里面。
输入赞赏。用更好的解决方案告诉我我做错了也是一个可行的答案。
【问题讨论】:
-
目前的想法是遵循这个:space.af/blog/2018/09/30/… 和 kubernetes.io/blog/2018/06/28/… 并利用 kubernetes 运算符:airflow.incubator.apache.org/kubernetes.html
-
statefulset 对你有用吗?
标签: kubernetes google-compute-engine airflow google-kubernetes-engine