【问题标题】:External Python Dependencies in Dataflow Pipeline数据流管道中的外部 Python 依赖项
【发布时间】:2017-10-11 17:20:52
【问题描述】:

可以将 python 依赖项加载到 Google Cloud Dataflow 管道中吗?

我想使用gensim's phrase modeler 逐行读取数据来自动检测常用短语/二元组(经常出现在彼此旁边的两个单词)。

所以管道的第一次运行是将每个句子传递给这个短语建模器。

然后,第二次通过管道将采用相同的短语建模器并将此短语建模器应用于每个句子,以识别应该一起建模的短语。示例:

  • 如果machinelearning 在语料库中经常相邻出现,它们将被转换为单个单词machine_learning

这可以在 Dataflow 中实现吗?

可以通过构建/需求文件强制 pip install gensim 在工作机器上吗?

【问题讨论】:

    标签: python google-cloud-dataflow apache-beam


    【解决方案1】:

    您可以查看此页面以管理管道中的依赖项:

    https://beam.apache.org/documentation/sdks/python-pipeline-dependencies

    示例:对于 PyPI 上的包,您可以通过添加以下命令行选项来使用需求文件:

    --requirements_file requirements.txt

    【讨论】:

      猜你喜欢
      • 2018-12-28
      • 1970-01-01
      • 1970-01-01
      • 2021-02-26
      • 1970-01-01
      • 2016-12-02
      • 2013-05-10
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多