【问题标题】:Creating a single Spark Dataframe from multiple sources?从多个来源创建单个 Spark Dataframe?
【发布时间】:2016-11-21 16:43:47
【问题描述】:

可以从外部文件创建 Spark 中的数据框。有没有办法使用多个文件来创建一个对象?

前: 如果我说记录相同数据的 csv 文件或 parquet 文件(比如一周中某一天购买的物品的数量)。有没有办法从每天的文件中初始化一个数据框,以获得一个代表一周购买数据的数据框?

【问题讨论】:

    标签: apache-spark dataframe pyspark apache-spark-sql spark-dataframe


    【解决方案1】:

    spark 从文件读取输入的方式取决于底层 Hadoop API。这意味着它们通常会扩展相同的用途,包括能够处理压缩文件或多个文件。

    在您的情况下,您只需使用通配符提供文件输入或用逗号单独分隔。见How to read multiple text files into a single RDD?

    【讨论】:

    • 如果我为一种文件类型提供了一个文件夹名称,Spark 是否能够获取该文件夹中的所有数据?
    • 是的,假设您都可以使用以下路径说明符以相同的方式解析它们:"/my/own/path/*"
    猜你喜欢
    • 2017-02-19
    • 2020-09-22
    • 2018-02-14
    • 1970-01-01
    • 2012-08-10
    • 2019-07-08
    • 1970-01-01
    • 2017-02-17
    • 2021-12-07
    相关资源
    最近更新 更多