【发布时间】:2017-05-26 16:23:24
【问题描述】:
我想从 PySpark 中的 URL 加载 csv 文件,是否可以这样做? 我将文件保存在 GitHub 上。
谢谢!
【问题讨论】:
我想从 PySpark 中的 URL 加载 csv 文件,是否可以这样做? 我将文件保存在 GitHub 上。
谢谢!
【问题讨论】:
在 pyspark 中没有天真的方法(参见 here)。 但是,如果您有一个将 URL 作为输入并输出 csv 的函数:
def read_from_URL(UR):
# your logic here
return data
你可以使用 spark 来并行化这个操作:
URL_list = ['http://github.com/file/location/file1.csv, ...]
data = sc.parallelize(URL_list).map(read_from_URL)
【讨论】: