【发布时间】:2018-05-22 02:39:32
【问题描述】:
我正在尝试使用 Spark 2.0 中的新内容将一些代码从 Spark 1.6 移植到 Spark 2.0。首先,我想使用 Spark 2.0 中的 csv 阅读器。顺便说一句,我正在使用 pyspark。
使用“旧”textFile 函数,我可以设置最小分区数。例如:
file= sc.textFile('/home/xpto/text.csv', minPartitions=10)
header = file.first() #extract header
data = file.filter(lambda x:x !=header) #csv without header
...
现在,使用 Spark 2.0,我可以直接读取 csv:
df = spark.read.csv('/home/xpto/text.csv', header=True)
...
但是我没有找到设置minPartitions的方法。
我需要这个来测试我的代码的性能。
谢谢, 弗雷德
【问题讨论】:
标签: csv apache-spark pyspark