【发布时间】:2019-04-03 12:08:11
【问题描述】:
tf 变换对于特征处理很方便,但是在没有分布式计算的情况下在大型数据集上运行效率不高。 tf transform 在 beam 上运行,据我了解,它可以使用多个运行器,如 dataflow、spark runner 等,但我找不到任何关于在 spark 上运行 tf transform 的示例。我想知道目前是否支持它。
【问题讨论】:
tf 变换对于特征处理很方便,但是在没有分布式计算的情况下在大型数据集上运行效率不高。 tf transform 在 beam 上运行,据我了解,它可以使用多个运行器,如 dataflow、spark runner 等,但我找不到任何关于在 spark 上运行 tf transform 的示例。我想知道目前是否支持它。
【问题讨论】:
我认为您目前还不能在 Spark 上运行 tf.transform。
tf.transform 在 Python 中,Beam's Spark runner only supports Java. AFAIK 只有 Google 的 Cloud Dataflow 运行器适用于 Python 和 tf.transform。有one article mentioned PySpark,但不确定它如何适应。
Beam runner 正在进行开发,最远的可能是Flink Runner which has Python SDK,但它仍在开发中,支持和示例非常稀少。 Here is a stack overflow post about setting it up.
【讨论】: