【发布时间】:2020-08-01 07:17:21
【问题描述】:
我正在使用 Vertica,并且我有一些用 Python 编写的函数,这些函数使用 numpy 线性代数功能/scipy 优化并且太复杂而无法用 SQL 编写。
基于基准,哪些选项会表现更好 -
1- Vertica UDF - 原始 python 函数的 udf 将应用于每条记录。
2- 使用 Pyspark 并将函数直接应用于每条记录。
在每条记录上应用 python 函数哪个更快 - Spark 或 Vertica UDF?
【问题讨论】:
标签: mysql apache-spark pyspark vertica