【发布时间】:2019-09-20 02:36:49
【问题描述】:
我正在查询 CosmosDb 集合,并且可以打印结果。当我尝试将结果存储到 Spark DataFrame 时,它失败了。
以本站为例:
How to read data from Azure's CosmosDB in python
按照上面链接中的确切步骤操作。此外,尝试以下方法
df = spark.createDataFrame(dataset)
这会引发此错误:
ValueError: 部分类型推断后无法确定
值错误 回溯(最近一次通话最后一次)
在 ()
25 打印(数据集)
26
---> 27 df = spark.createDataFrame(dataset)
28 df.show()
29/databricks/spark/python/pyspark/sql/session.py in createDataFrame(self, data, schema, samplingRatio, verifySchema)
808 rdd,架构 = self._createFromRDD(data.map(准备),架构,采样率)
809 其他:
--> 810 rdd,schema = self._createFromLocal(map(prepare, data), schema)
第811章 = self._jvm.SerDeUtil.toJavaArray(rdd._to_java_object_rdd())
812 jdf = self._jsparkSession.applySchemaToPythonRDD(jrdd.rdd(),schema.json())/databricks/spark/python/pyspark/sql/session.py in _createFromLocal(self, data, schema)
440 写入临时文件。
第441章 --> 442 个数据,模式 = self._wrap_data_schema(数据,模式)
443返回self._sc.parallelize(数据),架构
但是,希望将其保存为 Spark DataFrame
任何帮助将不胜感激。谢谢!!!>
【问题讨论】: