【发布时间】:2015-03-24 04:18:21
【问题描述】:
我的问题是当我尝试从sql.Row 读取数据作为String 时。我正在使用 pyspark,但我听说人们对 Scala API 也有这个问题。
pyspark.sql.Row 对象是一个非常顽固的生物。抛出以下异常:
java.lang.ClassCastException: [B cannot be cast to java.lang.String
at org.apache.spark.sql.catalyst.expressions.GenericRow.getString(Row.scala 183)
所以我们有一个字段被表示为一个字节数组。以下 python 打印结构不起作用
repr(sqlRdd.take(2))
还有
import pprint
pprint.pprint(sqlRdd.take(2))
两者都会导致 ClassCastException。
那么.. 其他人是如何做到这一点的?我开始自己动手(不幸的是,这里无法复制/粘贴……)但这有点重新发明轮子……或者我怀疑。
【问题讨论】:
标签: python apache-spark pyspark