【发布时间】:2015-12-23 15:26:18
【问题描述】:
如果我调用 map 或 mapPartition 并且我的函数从 PySpark 接收行,那么创建本地 PySpark 或 Pandas DataFrame 的自然方法是什么?结合行并保留模式的东西?
目前我正在做类似的事情:
def combine(partition):
rows = [x for x in partition]
dfpart = pd.DataFrame(rows,columns=rows[0].keys())
pandafunc(dfpart)
mydf.mapPartition(combine)
【问题讨论】:
标签: python pandas apache-spark pyspark pyspark-sql