是否可以在 spark 上运行 tf transform？

【问题标题】：Is it possible to run tf transform on spark?是否可以在 spark 上运行 tf transform？
【发布时间】：2019-04-03 12:08:11
【问题描述】：

tf 变换对于特征处理很方便，但是在没有分布式计算的情况下在大型数据集上运行效率不高。 tf transform 在 beam 上运行，据我了解，它可以使用多个运行器，如 dataflow、spark runner 等，但我找不到任何关于在 spark 上运行 tf transform 的示例。我想知道目前是否支持它。

【问题讨论】：

标签： tensorflow-transform

【解决方案1】：

我认为您目前还不能在 Spark 上运行 tf.transform。

tf.transform 在 Python 中，Beam's Spark runner only supports Java. AFAIK 只有 Google 的 Cloud Dataflow 运行器适用于 Python 和 tf.transform。有one article mentioned PySpark，但不确定它如何适应。

Beam runner 正在进行开发，最远的可能是Flink Runner which has Python SDK，但它仍在开发中，支持和示例非常稀少。 Here is a stack overflow post about setting it up.

【讨论】：