【发布时间】:2017-12-01 22:08:44
【问题描述】:
我正在使用 Apache Beam Python SDK 2.0.0 来定义管道,并尝试在 Google Cloud Dataflow 上运行它。
代码使用 gcs-oauth2-boto-plugin 进行身份验证,但需要通过 apt-get 安装一些软件包[1]。所以我需要在执行管道之前运行这段代码sudo apt-get install gcc python-dev python-setuptools libffi-dev libssl-dev。
如何告诉数据流在执行作业之前在 VM 中执行此命令?我知道我们可以为 Compute Engine 指定启动脚本,但在 Dataflow 中这是在后台创建的,我可以在 Dataflow 中提交作业时做类似的事情吗?
[1]https://cloud.google.com/storage/docs/xml-api/gspythonlibrary
【问题讨论】:
标签: python google-cloud-platform google-cloud-dataflow