【问题标题】:Google cloud dataflow and machine learning谷歌云数据流和机器学习
【发布时间】:2016-01-11 19:05:52
【问题描述】:

在 Google Cloud Dataflow 上运行机器学习算法的最佳方式是什么?我可以想象使用 Mahout 是一种选择,因为它是基于 Java 的。

答案可能是否定的,但有没有办法调用基于 R 或 Python(对算法的强大支持)的脚本来卸载 ML 执行?

-吉里什

【问题讨论】:

标签: google-cloud-dataflow google-cloud-ml


【解决方案1】:

您已经可以在数据流转换方面实现许多算法。

可能不太容易实现的一类算法是迭代算法,其中管道的执行图取决于数据本身。简化迭代算法的实现是我们感兴趣的事情,您可以期待该领域未来的改进和简化。

从 Dataflow 管道调用 Python(或任何其他)可执行文件应该不难。例如,ParDo 可以脱壳并启动任意进程。例如,您可以使用 --filesToStage 管道选项将其他文件添加到 Dataflow 工作环境。

【讨论】:

  • 您能否澄清或举例说明“从数据流管道调用 Python(或任何其他)可执行文件不应该很困难”的意思?
  • 您可以编写一个DoFn 来输出任何可执行文件。然后,通过ParDoDoFn 应用到任何数据流Pipeline
  • 你的意思是使用ProcessBuilder吗?
  • 几种方法——ProcessBuilder()Runtime.getRuntime().exec 是常见的。
【解决方案2】:

还有http://quickml.org/(个人没用过)和Weka。我记得文档提到可以从工作中启动一个新流程,但不推荐 AFAIK。

【讨论】:

    猜你喜欢
    • 2018-09-23
    • 2018-06-01
    • 2019-02-14
    • 1970-01-01
    • 2017-08-03
    • 2018-09-28
    • 2018-01-31
    • 1970-01-01
    • 2017-02-20
    相关资源
    最近更新 更多