【问题标题】:PGPy won't go on GCP Dataflow pipelinePGPy 不会继续使用 GCP 数据流管道
【发布时间】:2021-01-04 14:39:23
【问题描述】:

我正在尝试在使用 Apache Beam 实现的自定义 GCP 数据流管道中使用 PGPy 库。 我得到的是一切都适用于 DirectRunner,但是当我部署作业并在 DataflowRunner 上执行它时,我收到 PGPy 使用错误:

ModuleNotFoundError: 没有名为“pgpy”的模块

我认为我在 DataflowRunner 上缺少一些东西。

谢谢

【问题讨论】:

  • 我需要使用 PGP 加密在数据流作业执行期间创建的文件
  • 这个答案有帮助吗?

标签: google-cloud-platform google-cloud-dataflow apache-beam python-3.8


【解决方案1】:

为了管理管道依赖,请参考:

https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/

我个人的偏好是直接使用 setup.py,因为它可以让您处理多个文件依赖项,一旦管道变得更加复杂,就会使用它。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-05-25
    • 2020-02-05
    • 2020-12-21
    • 1970-01-01
    相关资源
    最近更新 更多