【发布时间】:2017-10-11 17:20:52
【问题描述】:
可以将 python 依赖项加载到 Google Cloud Dataflow 管道中吗?
我想使用gensim's phrase modeler 逐行读取数据来自动检测常用短语/二元组(经常出现在彼此旁边的两个单词)。
所以管道的第一次运行是将每个句子传递给这个短语建模器。
然后,第二次通过管道将采用相同的短语建模器并将此短语建模器应用于每个句子,以识别应该一起建模的短语。示例:
- 如果
machine和learning在语料库中经常相邻出现,它们将被转换为单个单词machine_learning。
这可以在 Dataflow 中实现吗?
可以通过构建/需求文件强制 pip install gensim 在工作机器上吗?
【问题讨论】:
标签: python google-cloud-dataflow apache-beam