【发布时间】:2021-05-22 01:55:19
【问题描述】:
我正在尝试使用 spark cosmos 连接器从 cosmos db 读取 30K 行数据,使用以下命令 代码
val readConfig = Config(Map(
"Endpoint" -> "",
"Masterkey" -> "",
"Database" -> "",
"Collection" -> "",
"PreferredRegions" -> "",
"query_custom" -> """SELECT t.id,t.gender,t.loc from Tab t"""
))
val df = spark.read.cosmosDB(readConfig)
在 30k 中,只有 2 行的 'loc' 列具有非空值。但由于某种原因,连接器在最终数据框中完全删除了“loc”列,最终数据框给出了以下架构
df.printSchema
root
|-- id: string (nullable = true)
|-- gender: string (nullable = true)
有人可以帮我如何将“loc”列包含在我的最终数据框中。
【问题讨论】:
-
Spark 版本?
-
Spark 版本为 2.4
标签: azure apache-spark azure-cosmosdb azure-databricks