【发布时间】:2017-09-29 21:02:06
【问题描述】:
如果我将列转换为不同的类型,那么任何无法转换的数据都会被静默转换为 NULL:
df = sc.parallelize([('a', '1'), ('b', 'NAN'), ('c', 'foo'))]) .toDF(['name', 'values'])
df.select( df.values.cast(DoubleType()) ).show()
+------+
|values|
+------+
| 1.0|
| null|
| null|
+------+
如果任何值无法转换,有什么方法可以让转换产生错误?
【问题讨论】:
标签: apache-spark pyspark