【发布时间】:2016-11-21 16:43:47
【问题描述】:
可以从外部文件创建 Spark 中的数据框。有没有办法使用多个文件来创建一个对象?
前: 如果我说记录相同数据的 csv 文件或 parquet 文件(比如一周中某一天购买的物品的数量)。有没有办法从每天的文件中初始化一个数据框,以获得一个代表一周购买数据的数据框?
【问题讨论】:
标签: apache-spark dataframe pyspark apache-spark-sql spark-dataframe
可以从外部文件创建 Spark 中的数据框。有没有办法使用多个文件来创建一个对象?
前: 如果我说记录相同数据的 csv 文件或 parquet 文件(比如一周中某一天购买的物品的数量)。有没有办法从每天的文件中初始化一个数据框,以获得一个代表一周购买数据的数据框?
【问题讨论】:
标签: apache-spark dataframe pyspark apache-spark-sql spark-dataframe
spark 从文件读取输入的方式取决于底层 Hadoop API。这意味着它们通常会扩展相同的用途,包括能够处理压缩文件或多个文件。
在您的情况下,您只需使用通配符提供文件输入或用逗号单独分隔。见How to read multiple text files into a single RDD?
【讨论】:
"/my/own/path/*"