【问题标题】:SPARK CONTEXT with JSON Data带有 JSON 数据的 SPARK CONTEXT
【发布时间】:2021-09-29 14:25:56
【问题描述】:

我的不足之处在哪里?

jsonStrings= '{"Zipcode":704,"ZipCodeType":"STANDARD","City":"PARC PARQUE","State":"PR"}'

jsonRDD = spark.sparkContext.parallelize([jsonStrings])

df = spark.read.option('multiline', "true").json(jsonRDD)

print(df.show())

ERROR----------------

raise converted from None pyspark.sql.utils.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: {"Zipcode":704,%22ZipCodeType%22:%22STANDARD%22,%22City%22:%22PARC%20PARQUE%22,%22State%22:%22PR%22%7D

【问题讨论】:

    标签: sql json dataframe apache-spark


    【解决方案1】:

    json() 这里 spark.read.option('multiline', "true").json(jsonRDD) 需要数据路径,而不是 RDD。文档是here

    如果你想从 json 字符串创建 df,你可以这样做:

    
    from pyspark.sql import Row
    
    df = spark.createDataFrame(
       spark.sparkContext.parallelize([Row(json=jsonStrings)])
    )
    
    

    【讨论】:

    • 感谢 Artem 的建议。我确实尝试过这种方法
    猜你喜欢
    • 2019-09-18
    • 2016-12-29
    • 1970-01-01
    • 2020-03-26
    • 2020-07-01
    • 2021-07-18
    • 1970-01-01
    • 2018-12-04
    • 2014-11-02
    相关资源
    最近更新 更多