【发布时间】:2016-03-19 19:45:14
【问题描述】:
我正在使用 PySpark 中的以下命令读取文本文件
rating_data_raw = sc.textFile("/<path_to_csv_file>.csv")
有没有办法指定 RDD rating_data_raw 应该分成多少个分区?我想指定大量的分区以获得更大的并发性。
【问题讨论】:
-
可以添加python标签吗?这种方式将为您的代码添加高亮
-
您可以在读取文件时声明最小分区数,请参阅此处的文档 - spark.apache.org/docs/latest/api/python/pyspark.html
标签: python apache-spark pyspark rdd