【发布时间】:2015-08-11 13:48:49
【问题描述】:
Dataflow SDK 中是否有任何东西可以让我在工作人员上暂存资源文件?我需要在文件系统上为执行 NLP 的自定义 DoFn 提供特定的静态文件资源。我的目标是从类加载器中获取一个 zip 文件资源,并在 worker 初始化时仅在 worker 文件系统上解压一次,而不是尝试在自定义 DoFn 中执行此操作。
【问题讨论】:
标签: google-cloud-platform google-cloud-dataflow
Dataflow SDK 中是否有任何东西可以让我在工作人员上暂存资源文件?我需要在文件系统上为执行 NLP 的自定义 DoFn 提供特定的静态文件资源。我的目标是从类加载器中获取一个 zip 文件资源,并在 worker 初始化时仅在 worker 文件系统上解压一次,而不是尝试在自定义 DoFn 中执行此操作。
【问题讨论】:
标签: google-cloud-platform google-cloud-dataflow
您可以指定--filesToStage 来指定应暂存的文件。有几个问题需要注意:
--filesToStage 设置为类路径中的所有文件,以确保工作人员可以使用运行管道所需的代码。如果您覆盖此选项,您需要确保它包含您的代码。--filesToStage=foo.zip,则文件名将是foo-<someHash>.zip。您需要遍历类路径中的所有文件才能找到合适的文件。在https://cloud.google.com/dataflow/pipelines/executing-your-pipeline 中查看--filesToStage 的文档
了解更多信息。
【讨论】: