【发布时间】:2017-12-01 05:53:11
【问题描述】:
我如何处理我无法在传递给 pyspark 中的 mapPartitions() 的函数中使用 print 语句调试代码的问题?
考虑这个例子:
def func(kv_iterator):
for key, value in iterator:
#do fancy stuff
print('This print statement does not reach the driver program')
return [result]
result = someRdd.mapPartitions(func)
在 func 内部,我想在可迭代和索引方面做很多工作,但我可以测试我的代码,而不会过多地使用 func 内部的变量。
是否有可能以某种方式将打印语句从一个分区重定向到我的驱动程序/输出通道?
【问题讨论】:
标签: apache-spark mapreduce pyspark partitioning