【发布时间】:2018-09-25 22:07:55
【问题描述】:
我是 spark 的新手,我仍在使用它进行第一次测试。我安装了一个节点,并在一台体面的服务器上将其用作我的主节点:
pyspark --master local[20]
当然,我在使用 pyspark 的第一步中遇到了一些困难。
我有一个 40GB 的 CSV 文件和大约 3 亿行。我想要做的是找到最快的方法来拆分这个文件并制作它的小包并将它们也存储为 CSV 文件。为此,我有两种情况:
第一个。不带任何条件地拆分文件。只需将其平均分成 100 份(每份 300 万行)。
第二个。 我正在加载的 CSV 数据是表格数据,我有一列 X 有 100K 不同的 ID。我想做的是创建一组字典并创建较小的 CSV 文件,我的字典会告诉我每行应该去哪个包。
到目前为止,这就是我现在的位置:
sc=SparkContext.getOrCreate()
file_1 = r'D:\PATH\TOFILE\data.csv'
sdf = spark.read.option("header","true").csv(file_1, sep=";", encoding='cp1252')
感谢您的帮助!
【问题讨论】:
标签: python csv apache-spark split pyspark