【发布时间】:2018-09-22 10:12:31
【问题描述】:
与:Spark Dataframe column with last character of other column
密切相关,但我想从 -1 索引中提取多个字符。
我有以下 pyspark 数据框df
+----------+----------+
| number|event_type|
+----------+----------+
|0342224022| 11|
|0112964715| 11|
+----------+----------+
我想从 number 列的最后一个索引中提取 3 个字符。
我尝试了以下方法:
from pyspark.sql.functions import substring
df.select(substring(df['number'], -1, 3), 'event_type').show(2)
# which returns:
+----------------------+----------+
|substring(number,-1,3)|event_type|
+----------------------+----------+
| 2| 11|
| 5| 11|
+----------------------+----------+
下面是预期的输出(我不确定上面的输出是什么):
+----------------------+----------+
|substring(number,-1,3)|event_type|
+----------------------+----------+
| 022| 11|
| 715| 11|
+----------------------+----------+
我做错了什么?
注意:Spark 版本 1.6.0
【问题讨论】:
标签: python apache-spark pyspark