【问题标题】:how to reading multiple csv files from different paths in spark sql如何从spark sql中的不同路径读取多个csv文件
【发布时间】:2021-10-16 09:48:14
【问题描述】:

我正在尝试读取不同文件夹中的多个 csv 文件

from pyspark.sql import *




spark = SparkSession \
    .builder \
    .appName("example") \
    .config("spark.some.config.option") \
    .getOrCreate()


folders = List("../../work/datainfo2/*.csv", "../../work/202003F1/*.csv")
df = spark.read.option("header", "false").csv(folders: _.csv)



df.createOrReplaceTempView("iris")
result = spark.sql("select * from iris where _c1 =1 order by _c0 desc")
result.show()

会报错

df = spark.read.option("header", "false").csv(folders: _.csv)
                                                     ^
SyntaxError: invalid syntax

我在这里看到过类似的解决方法,但没有成功

【问题讨论】:

    标签: python sql csv apache-spark pyspark


    【解决方案1】:

    您使用的是 scala 语法而不是 python 语法。

    这应该适合你:

    folders = ["../../work/datainfo2/*.csv", "../../work/202003F1/*.csv"]
    df = spark.read.option("header", "false").csv(folders)
    

    【讨论】:

      猜你喜欢
      • 2021-08-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-06-12
      • 1970-01-01
      • 2017-12-02
      • 2020-03-13
      相关资源
      最近更新 更多