R正则表达式：隔离带括号的后缀答案

【问题标题】：R regular expression: isolate parenthesized suffixR正则表达式：隔离带括号的后缀
【发布时间】：2021-04-23 01:51:54
【问题描述】：

我在 R 中使用正则表达式。我试图挑选出字符向量中某些字符串末尾的带括号的内容。我能够在括号内的内容存在时找到它，但我无法在没有括号的输入中排除非括号内的内容。

例子：

> x <- c("DECIMAL", "DECIMAL(14,5)", "RAND(1)")
> gsub("(.*?)(\\(.*\\))", "\\2", x)
[1] "DECIMAL" "(14,5)"  "(1)"

输出中的最后两个元素是正确的，第一个不正确。我想要

c("", "(14,5)", "(1)")

输入可以在括号内容之前包含任何内容，实际上是任何单词或数字字符。

【问题讨论】：

标签： r regex

【解决方案1】：

你可以使用

sub("^.*?(\\(.*\\))?$", "\\1", x, perl=TRUE)

请参阅regex demo。详情：

x <- c("DECIMAL", "DECIMAL(14,5)", "RAND(1)")
sub("^.*?(\\(.*\\))?$", "\\1", x, perl=TRUE)
## => [1] ""       "(14,5)" "(1)"

注意：perl=TRUE 在这种情况下非常重要，因为正则表达式中的两个部分具有不同贪心的量词。

【讨论】：

【解决方案2】：

我们可以使用str_extract 或regmatches

library(stringr)
library(tidyr)
replace_na(str_extract(x, "\\([^)]+\\)"), "")
#[1] ""       "(14,5)" "(1)"

sub/gsub如果模式不匹配，则返回整个字符串

【讨论】：