小心!如果列表中有一个空元素并且您想要该项目或它之后的一个,则格式 '[^,]+' 的 regexp_substr 表达式将不会返回预期值。考虑这个示例,其中第 4 个元素为 NULL,我想要第 5 个元素,因此期望返回“5”:
SQL> select regexp_substr('1,2,3,,5,6', '[^,]+', 1, 5) from dual;
R
-
6
惊喜!它返回第 5 个非空元素,而不是实际的第 5 个元素!返回的数据不正确,您甚至可能无法捕捉到它。试试这个:
SQL> select regexp_substr('1,2,3,,5,6', '(.*?)(,|$)', 1, 5, NULL, 1) from dual;
R
-
5
因此,上述更正后的 REGEXP_SUBSTR 表示要查找第 5 次出现的 0 个或多个逗号分隔字符,后跟逗号或行尾(允许使用下一个分隔符,无论是逗号还是行),找到后返回第一个子组(数据不包括逗号或行尾)。
搜索匹配模式'(.*?)(,|$)' 解释:
( = Start a group
. = match any character
* = 0 or more matches of the preceding character
? = Match 0 or 1 occurrences of the preceding pattern
) = End the 1st group
( = Start a new group (also used for logical OR)
, = comma
| = OR
$ = End of the line
) = End the 2nd group
编辑:添加了更多信息并简化了正则表达式。
有关更多信息和将其封装在函数中以便于重用的建议,请参阅此帖子:REGEX to select nth value from a list, allowing for nulls
这是我发现'[^,]+' 格式有问题的帖子。不幸的是,这是您最常看到的正则表达式格式,可以作为有关如何解析列表的问题的答案。想到'[^,]+'返回的所有错误数据我都不寒而栗!