【发布时间】:2018-10-19 12:12:42
【问题描述】:
我已经成功创建并测试了一个项目,该项目使用 docker-compose 使用示例数据在本地运行。运行整个管道作业的 Bash 文件:
cp -r ../data . # transfer data used for job
docker-compose up --build -d
docker exec project_master_1 bin/spark-submit \
--py-files /project/utils.py\
/project/main.py
docker cp project_master_1:/project/data/output/. ../project/output #some tranfer of generated files
docker exec project_master_1 rm -rf /project/data
docker-compose down
我的 docker-compose 文件与以下文件相同:github link
所以我要做的是创建一个带有初始化操作的dataproc集群来安装docker:
gs://dataproc-initialization-actions/docker/docker.sh
下一步:
- 我用ssh进入master
- git clone 我的项目(这也可以在初始化操作中完成(???))
- 安装 docker-compose
- 运行 bash 文件。
它开始运行,但它似乎只在 master 中运行,而不在 worker 中运行。那么我在这里做错了什么?任何见解都是有用的。
【问题讨论】:
标签: docker apache-spark docker-compose google-cloud-dataproc