【发布时间】:2020-10-29 08:43:21
【问题描述】:
我有一个 Pyspark 数据框,其中包括一列 MSN(字符串类型),如下所示:
+------+
| Col1 |
+------+
| 654- |
| 1859 |
| 5875 |
| 784- |
| 596- |
| 668- |
| 1075 |
+------+
如您所见,那些值小于 1000(即三个字符)的条目末尾有一个 - 字符,总共有 4 个字符。
我想摆脱那个- 字符,所以我最终会得到类似的东西:
+------+
| Col2 |
+------+
| 654 |
| 1859 |
| 5875 |
| 784 |
| 596 |
| 668 |
| 1075 |
+------+
我尝试了以下代码(其中df 是包含该列的数据框,但它似乎不起作用:
if df.Col1[3] == "-":
df = df.withColumn('Col2', df.series.substr(1, 3))
return df
else:
return df
有人知道怎么做吗?
【问题讨论】:
标签: pyspark