【发布时间】:2020-01-29 08:00:34
【问题描述】:
我将 pandas 数据框转换为 spark sql 表。我是 SQL 新手,想从表中选择键“代码”。
查询
sqlContext.sql("""SELECT `classification` FROM psyc""").show()
查询响应
+--------------------+
| classification|
+--------------------+
|[{'code': '3297',...|
|[{'code': '3410',...|
|[{'code': '3410',...|
|[{'code': '2227',...|
|[{'code': '3410',...|
+--------------------+
如何选择关键的“代码”。该列包含一个包含数据的 dict 列表。
sqlContext.sql("""SELECT `classification.code` FROM psyc""").show() # this query does not work
这是剩下的代码
from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
spark = SparkSession \
.builder \
.appName("Python Spark SQL ") \
.getOrCreate()
sc = spark.sparkContext
sqlContext = SQLContext(sc)
fp = os.path.join(BASE_DIR,'psyc.csv')
df = spark.read.csv(fp,header=True)
df.printSchema()
df.createOrReplaceTempView("psyc")
这将创建一个具有以下架构的表
【问题讨论】:
标签: sql python-3.x pyspark apache-spark-sql pyspark-sql