【发布时间】:2018-08-08 09:48:27
【问题描述】:
我正在尝试在 s3 中加载总共 100mill 行数据的随机样本。 有没有一种简单的方法可以将 s3 中的随机样本直接加载到 pyspark 数据帧中?
在熊猫中这会是这样的
df = pandas.read_csv(filename, skiprows=skiplines)
pyspark 中是否有我可以使用的等价物?
【问题讨论】:
标签: amazon-web-services csv amazon-s3 pyspark