【发布时间】:2021-01-26 18:53:09
【问题描述】:
在过去的几周里,我一直在通过我为工作所做的所有测试来扩展我对 spark 的了解,但我有点困惑什么时候适合使用 A UDF,什么时候不适合。查看一些同行代码,他们在使用数据帧时使用了很多UDF,但它们非常耗费资源。因为我重构了他们的很多代码,所以我使用spark.sql() 重写了很多代码,而且速度更快,而且我只使用 spark 功能。话虽如此,何时使用 UDF 与仅使用 spark 的内置功能比较合适?
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql user-defined-functions