【发布时间】:2023-04-07 07:32:01
【问题描述】:
如何在 pyspark 中更改并行任务的数量?
我的意思是如何更改在我的 PC 上运行的虚拟地图的数量。实际上我想通过地图功能的数量来绘制加速图表。
示例代码:
words = sc.parallelize(["scala","java","hadoop"])\
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a + b)
如果你理解我的目的,但我问错了,如果你纠正它,我将不胜感激
谢谢
【问题讨论】:
-
在您的 PC 上(本地执行)还是在集群中?可以说前者没有特别的兴趣......
-
是的,我的意思是本地执行
-
这个没有太大意义;一般来说,如果你打算在一台机器上工作,你绝对没有理由使用 Spark(除了用于演示目的的玩具示例,也就是说,像你这样的问题没有实际用处)。
标签: apache-spark pyspark