加载 csv 文件 s3 pyspark 的随机样本

【问题标题】：Load a random sample of csv file s3 pyspark加载 csv 文件 s3 pyspark 的随机样本
【发布时间】：2018-08-08 09:48:27
【问题描述】：

我正在尝试在 s3 中加载总共 100mill 行数据的随机样本。有没有一种简单的方法可以将 s3 中的随机样本直接加载到 pyspark 数据帧中？

在熊猫中这会是这样的 df = pandas.read_csv(filename, skiprows=skiplines)

pyspark 中是否有我可以使用的等价物？

【问题讨论】：

【解决方案1】：

我相信默认情况下 spark 的 DataFrameReader.csv 是 lazy ^{[需要引用]}。

所以，您应该能够读取 csv 并使用 pyspark.sql.DataFrame.sample：

frac = 0.01 # get approximately 1%
df = spark.read.csv(filename)
sample = df.sample(withReplacement=False, fraction=frac)

但在您应用转换之前，实际上什么都不会执行。

【讨论】：