【发布时间】:2018-05-11 23:03:52
【问题描述】:
我在 pyspark 的数据框中有一列,如下面的“Col1”。我想创建一个新列“Col2”,其中包含“Col1”中每个字符串的长度。我是 pyspark 的新手,我一直在谷歌上搜索,但没有看到任何关于如何做到这一点的例子。非常感谢任何提示。
示例:
Col1 Col2
12 2
123 3
【问题讨论】:
标签: python-2.7 pyspark
我在 pyspark 的数据框中有一列,如下面的“Col1”。我想创建一个新列“Col2”,其中包含“Col1”中每个字符串的长度。我是 pyspark 的新手,我一直在谷歌上搜索,但没有看到任何关于如何做到这一点的例子。非常感谢任何提示。
示例:
Col1 Col2
12 2
123 3
【问题讨论】:
标签: python-2.7 pyspark
你可以使用length函数:
import pyspark.sql.functions as F
df.withColumn('Col2', F.length('Col1')).show()
+----+----+
|Col1|Col2|
+----+----+
| 12| 2|
| 123| 3|
+----+----+
【讨论】: