【发布时间】:2020-06-11 08:56:02
【问题描述】:
在 Apache Spark 上,我有一个应该返回 pd.Series 的 pandas_udf 函数如何存档?
我试过了:
@pandas_udf(ArrayType(LongType()), PandasUDFType.SCALAR_ITER) # Only works with spark 3.0
def udf(iterator):
...
return pd.Series([1,2,3,4,5])
这给出了例外:
pyarrow.lib.ArrowNotImplementedError: NumPyConverter doesn't implement <list<item: int64>> conversion.
【问题讨论】:
-
你能用一些示例数据分享你想要实现的目标吗?
标签: apache-spark pyspark apache-arrow