【问题标题】:PySpark loading from URLPySpark 从 URL 加载
【发布时间】:2017-05-26 16:23:24
【问题描述】:

我想从 PySpark 中的 URL 加载 csv 文件,是否可以这样做? 我将文件保存在 GitHub 上。

谢谢!

【问题讨论】:

    标签: csv url download pyspark


    【解决方案1】:

    在 pyspark 中没有天真的方法(参见 here)。 但是,如果您有一个将 URL 作为输入并输出 csv 的函数:

    def read_from_URL(UR):
        # your logic here
        return data
    

    你可以使用 spark 来并行化这个操作:

    URL_list = ['http://github.com/file/location/file1.csv, ...]
    data = sc.parallelize(URL_list).map(read_from_URL)
    

    【讨论】:

      猜你喜欢
      • 2020-10-21
      • 1970-01-01
      • 2016-06-07
      • 1970-01-01
      • 2020-02-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-02-12
      相关资源
      最近更新 更多