【发布时间】:2018-09-06 13:33:10
【问题描述】:
我正在尝试根据分隔符“:|:|:”在 spark 中拆分数据帧的字符串列
Input:
TEST:|:|:51:|:|:PHT054008056
测试代码:
dataframe1
.withColumn("splitColumn", split(col("testcolumn"), ":|:|:"))
结果:
+------------------------------+
|splitColumn |
+------------------------------+
|[TEST, |, |, 51, |, |, P] |
+------------------------------+
测试代码:
dataframe1
.withColumn("part1", split(col("testcolumn"), ":|:|:").getItem(0))
.withColumn("part2", split(col("testcolumn"), ":|:|:").getItem(3))
.withColumn("part3", split(col("testcolumn"), ":|:|:").getItem(6))
part1 和 part2 工作正常。 part3 只有 2 个字符,字符串的其余部分被截断。
第三部分:
P
我想获取整个 part3 字符串。 任何帮助表示赞赏。
【问题讨论】:
标签: scala apache-spark apache-spark-sql