【问题标题】:Back-reference in Spark DataFrame `regexp_replace`Spark DataFrame `regexp_replace` 中的反向引用
【发布时间】:2016-10-20 09:32:02
【问题描述】:

我最近试图回答 question,当我意识到我不知道如何在 Spark DataFrames 的正则表达式中使用反向引用时。

例如,使用 sed,我可以做到

> echo 'a1
b22
333' | sed "s/\([0-9][0-9]*\)/;\1/"                                                                                                   

a;1
b;22
;333

但使用 Spark DataFrames 我不能:

val df = List("a1","b22","333").toDF("str")
df.show

+---+
|str|
+---+
| a1|
|b22|
|333|
+---+

val res = df  .withColumn("repBackRef",regexp_replace('str,"(\\d+)$",";\\1"))
res.show

+---+-----------+
|str|repBackRef|
+---+----------+
| a1|       a;1|
|b22|       b;1|
|333|        ;1|
+---+----------+

为了明确一点:我不想要这种特殊情况下的结果,我想要一个像 sed 中的反向引用一样通用的解决方案。

还请注意,缺少使用 regexp_extract,因为它在没有匹配时表现不佳:

val res2 = df
  .withColumn("repExtract",regexp_extract('str,"^([A-z])+?(\\d+)$",2))
res2.show

这样你就不得不像我在上述answer 中所做的那样,对每个模式使用一列进行提取。

谢谢!

【问题讨论】:

  • 是的!谢谢!我寻找这样一个简单的语法,但我没有找到。如果你把它放在答案中,我会接受。

标签: regex scala apache-spark spark-dataframe backreference


【解决方案1】:

您需要使用$+numeric_ID 反向引用语法:

.withColumn("repBackRef",regexp_replace('str,"(\\d+)$",";$1"))
                                                         ^^

【讨论】:

    猜你喜欢
    • 2014-10-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-04-25
    • 2014-08-24
    • 2019-12-05
    • 1970-01-01
    • 2016-08-27
    相关资源
    最近更新 更多