在 oracle 中使用正则表达式在分隔符之间获取文本答案

【问题标题】：Fetch text between delimiter using regex in oracle在 oracle 中使用正则表达式在分隔符之间获取文本
【发布时间】：2016-05-08 00:24:54
【问题描述】：

我得到一个包含在分隔符之间的文本预言。如果可能，请帮助为文本创建正则表达式。我有一个文本示例

12322ABCD124A||!!123!!word1  !!word2!! word3!!||!!789!!word4!!word5  !! word6!!||!!2345  !!word7!!word8!! 890!!||

到目前为止，我只能获取：

||!!123!!word1  !!word2!! word3!!||!!789!!word4!!word5  !! word6!!||!!2345  !!word7!!word8!! 890!!

使用这个(\|\|(.*))+([^\|\|])。

但我需要将这些数据与 || 分开然后从 !! 分裂。之后我需要将它保存到这样的数组中：

数组[1]= (123,word1 ,word2, word3)

数组[2]=(789,word4,word5 , word6)

数组[3]=(2345 ,word7,word8, 890)

【问题讨论】：

尝试使用 REGEXP_REPLACE 并匹配模式。

标签： regex database oracle oracle11g expression

【解决方案1】：

这个应该可以的：

with v1 as
(
  select '12322ABCD124A||!!123!!word1  !!word2!! word3!!||!!789!!word4!!word5  !! word6!!||!!2345  !!word7!!word8!! 890!!||' t from dual
)
select level -1 id, trim(',' from regexp_replace(regexp_substr(t,'[^\|]+',1,level),'!!',',')) array from v1
where level > 1
connect by level <= regexp_count(t,'\|\|');

输出：

        ID ARRAY
---------- --------------------------
         1 123,word1  ,word2, word3
         2 789,word4,word5  , word6
         3 2345  ,word7,word8, 890

如果零件的数量是恒定的 (4) 并且您希望它们在单独的列中：

with v1 as
(
      select '12322ABCD124A||!!123!!word1  !!word2!! word3!!||!!789!!word4!!word5  !! word6!!||!!2345  !!word7!!word8!! 890!!||' t from dual
    ), v2 as
    (
    select level -1 id, trim(',' from regexp_replace(regexp_substr(t,'[^\|]+',1,level),'!!',',')) array
    from v1
    where level > 1
    connect by level <= regexp_count(t,'\|\|')
    )
    select id,
    regexp_substr(array,'[^,]+',1,1) val1,
    regexp_substr(array,'[^,]+',1,2) val2,
    regexp_substr(array,'[^,]+',1,3) val3,
    regexp_substr(array,'[^,]+',1,4) val4
    from v2;

输出：

        ID VAL1       VAL2       VAL3       VAL4
---------- ---------- ---------- ---------- ----------
         1 123        word1      word2       word3
         2 789        word4      word5       word6
         3 2345       word7      word8       890

PLSQL 风格：

declare 
  type t_text_array is table of varchar2(4000);
  v_text_array t_text_array := t_text_array();
  val varchar2(4000);
  cursor c1 is 
  select '12322ABCD124A||!!123!!word1  !!word2!! word3!!||!!789!!word4!!word5  !! word6!!||!!2345  !!word7!!word8!! 890!!||' t from dual;
begin
  open c1;
  fetch c1 bulk collect into v_text_array;
  for i in 1..v_text_array.count loop
    for j in 2..regexp_count(v_text_array(i),'\|\|') loop
      val := trim(',' from regexp_replace(regexp_substr(v_text_array(i),'[^\|]+',1,j),'!!',','));
      for k in 1..regexp_count(val,',')+1 loop
        --display to console or further process...
        dbms_output.put_line(regexp_substr(val,'[^,]+',1,k));
      end loop;
    end loop;
  end loop;
end;
/

【讨论】：

感谢您提供解决方案。但是我们不能认为它是常数（4）。我只举了一个例子。在我的代码中，它将增加到 50 多个值。但格式保持不变。如果可能的话，请使其通用，例如检查计数然后提前执行..
每行有超过 50 个单独的值（列）？
是的。意味着我们不知道修复计数。在生产服务器中，我们只需要创建一个通用代码。没有硬编码
不能选择单独的列。使用逗号分隔值访问“数组”列并将其拆分为例如pl/sql 使用循环
好的.. 但是如何使用 for 循环拆分和访问这些值.. 您能否将该功能添加到您的查询中。真的很感谢你

【解决方案2】：

以下返回预期结果：

with x as 
(select '2322ABCD124A||!!123!!word1  !!word2!! word3!!||!!789!!word4!!word5  !! word6!!||!!2345  !!word7!!word8!! 890!!||' str
 from dual),
 y as (
select regexp_substr(str,'[^||]+[!!]*', 1, level) str from x
    where level > 1
    connect by regexp_substr(str, '[^||]+[!!]*', 1, level) is not null
     )   
 select 
     regexp_replace (
      regexp_replace (
         regexp_replace(str, '^!!', '(') ,
          '!!$', ')'),   
          '[ ]*!![ ]*', ',')  str
   from y

【讨论】：

还有一件事是，可以分别超出每个值。我想要一些事情，比如执行一个 for 循环，直到总行数。然后从每一行中选择每个值并分配给变量并进行处理。然后第二行并将所有 4 个值分配给相同的变量并处理它等等...
我已经用 for 循环尝试了代码。就像 for I in(your query)loop dbms_output.put_line(I.STR);结束循环；但是 STR 正在逐行返回。是否有类似 STR[1] 用于访问 123 等
能否将 4 个值显示为 4 列。因为每行中的值总数将保持不变。在这种情况下，也很容易访问每个值
您的查询忽略了空格。请将 [ ]*!![ ]*', ',' 替换为 [/]*!![ ]*', ','
@Tans 只需根据您的要求进行修改。我不确切知道您需要什么-我为此创建了解决方案，我可以从您的问题中理解。它可能是您真正任务的起点。祝你好运！

【解决方案3】：

您需要按照here 的描述在分隔符上应用两次拆分。最后使用 LISTAGG 再次将值（单词）变平，并通过一些字符串连接完成。

我提供了一个完整的示例有两个输入记录，因此它可以扩展到任何数量的解析行。

您可能需要调整 T2table 以限制拆分次数。如果您的关键字中可以包含 NULL 值，则还需要进行一些特殊处理。

查询 - 在下面评论

WITH t1 AS
  (SELECT 1 id,
    '12322ABCD124A||!!123!!word1  !!word2!! word3!!||!!789!!word4!!word5  !! word6!!||!!2345  !!word7!!word8!! 890!!|| ' col
  FROM dual
  UNION ALL
  SELECT 2 id,
    '22222ACCCC12Y||!!567!!word21  !!word22!! word23!!||!!789!!word24!!word25  !! word26!!||!!2345  !!word27!!word28!! 890!!|| ' col
  FROM dual
  ),
  t2 AS
  (SELECT rownum colnum
  FROM dual
    CONNECT BY level < 10
    /* (max) number of columns */
  ),
  t3 AS
  (SELECT t1.id,
    t2.colnum,
    regexp_substr(t1.col,'[^|]+', 1, t2.colnum) col
  FROM t1,
    t2
  WHERE regexp_substr(t1.col, '[^|]+', 1, t2.colnum) IS NOT NULL
  ),
  first_split AS
  ( SELECT id, colnum, col FROM t3 WHERE col LIKE '%!!%'
  ),
  second_split AS
  (SELECT t1.id,
    t1.colnum linenum,
    t2.colnum,
    regexp_substr(t1.col,'[^!]+', 1, t2.colnum) col
  FROM first_split t1,
    t2
  WHERE regexp_substr(t1.col, '[^!]+', 1, t2.colnum) IS NOT NULL
  ),
  agg_values AS
  (SELECT id,
    linenum,
    LISTAGG(col, ',') WITHIN GROUP (
  ORDER BY colnum) val_lst
  FROM second_split
  GROUP BY id,
    linenum
  )
SELECT id,
  'array['
  || row_number() over (partition BY ID order by linenum)
  || ']= ('
  ||val_lst
  ||')' array_text
FROM agg_values
ORDER BY 1,2

按要求输出

    ID ARRAY_TEXT   
     1 array[1]= (123, word1, word2, word3)   
     1 array[2]= (789, word4, word5, word6)      
     1 array[3]= (2345, word7, word8, 890)        
     2 array[1]= (567, word21, word22, word23)        
     2 array[2]= (789, word24, word25, word26)         
     2 array[3]= (2345, word27, word28, 890)

这是 first_split 查询的结果。您将数据分成几行。

ID     COLNUM COL
---------- ---------- ------------------------------------------
1          2 !!123!!word1  !!word2!! word3!!
1          3 !!789!!word4!!word5  !! word6!!
1          4 !!2345  !!word7!!word8!! 890!!
2          2 !!567!!word21  !!word22!! word23!!
2          3 !!789!!word24!!word25  !! word26!!
2          4 !!2345  !!word27!!word28!! 890!!

second_split 查询在 word 中换行。

ID    LINENUM     COLNUM COL
---------- ---------- ---------- --------------------------------------------------------------------------------------------------------------------------
1          2          1 123
1          2          2 word1
1          2          3 word2
1          2          4 word3
1          3          1 789
1          3          2 word4
1          3          3 word5
.....

剩下的就是 LISTAGG 来获取 csv 关键字列表和 ROW_NUMBER 函数来获取不错的顺序 array_ids

如果您想提取不同列中的值，请使用 PIVOT 而不是 LISTAGG。缺点是您必须根据值的实际数量调整查询。

WITH t1 AS
  (SELECT 1 id,
    '12322ABCD124A||!!123!!word1  !!word2!! word3!!||!!789!!word4!!word5  !! word6!!||!!2345  !!word7!!word8!! 890!!|| ' col
  FROM dual
  UNION ALL
  SELECT 2 id,
    '22222ACCCC12Y||!!567!!word21  !!word22!! word23!!||!!789!!word24!!word25  !! word26!!||!!2345  !!word27!!word28!! 890!!|| ' col
  FROM dual
  ),
  t2 AS
  (SELECT rownum colnum
  FROM dual
    CONNECT BY level < 10
    /* (max) number of columns */
  ),
  t3 AS
  (SELECT t1.id,
    t2.colnum,
    regexp_substr(t1.col,'[^|]+', 1, t2.colnum) col
  FROM t1,
    t2
  WHERE regexp_substr(t1.col, '[^|]+', 1, t2.colnum) IS NOT NULL
  ),
  first_split AS
  ( SELECT id, colnum, col FROM t3 WHERE col LIKE '%!!%'
  ),
  --select * from first_split order by 1,2,3;
  second_split AS
  (SELECT t1.id,
    t1.colnum linenum,
    t2.colnum,
    regexp_substr(t1.col,'[^!]+', 1, t2.colnum) col
  FROM first_split t1,
    t2
  WHERE regexp_substr(t1.col, '[^!]+', 1, t2.colnum) IS NOT NULL
  ),
  pivot_values AS
  (SELECT  *
  FROM second_split PIVOT (MAX(col) col FOR (colnum) IN (1 AS "K1", 2 AS "K2", 3 AS "K3", 4 AS "K4"))
  )
SELECT id,
  row_number() over (partition BY ID order by linenum) AS array_id,
  K1_COL,
  K2_COL,
  K3_COL,
  K4_COL
FROM pivot_values
ORDER BY 1,2;

提供关系视图

ID   ARRAY_ID K1_COL   K2_COL   K3_COL   K4_COL
---------- ---------- -------- -------- -------- --------
1          1 123      word1    word2     word3
1          2 789      word4    word5     word6
1          3 2345     word7    word8     890
2          1 567      word21   word22    word23
2          2 789      word24   word25    word26
2          3 2345     word27   word28    890

【讨论】：

在您的情况下，结果也是删除空格..例如..而不是“word1”它给出的是“word1”..我
是不是，可以分别超出每个值。我想要一些东西，比如执行一个 for 循环直到数组的计数。然后从每个数组中选择每个值并将 123 等变量分配给 variable1，将 word1 分配给 variable2 并处理它。然后第二个数组并将所有 4 个值分配给相同的变量并处理它等等...
能否将 4 个值显示为 4 列。因为每行中的值总数将保持不变。在这种情况下，也很容易访问每个值
@Tans 我更新了查询不吃空格，并使用 PIVOT 添加了一个查询以获取分隔列中的值。
是否可以使代码通用。您已经考虑过 K1 到 K4 .. 但我只分享了这个例子。在实际情况下，这些值会增加或减少。

【解决方案4】：

Oracle 设置：

CREATE TABLE table_name ( id, value ) AS
SELECT 1, '12322ABCD124A||!!123!!word1  !!word2!! word3!!||!!789!!word4!!word5  !! word6!!||!!2345  !!word7!!word8!! 890!!||' FROM DUAL UNION ALL
SELECT 2, '12322ABCD124A||!!321!!word1a  !!word2a!! word3a!!||!!987!!word4a!!word5a  !! word6a!!||!!5432  !!word7a!!word8a!! 098!!||' FROM DUAL;

查询 1：

SELECT id,
       grp_no,
       CAST(
         MULTISET(
           SELECT  REGEXP_SUBSTR( t.text, '!\s*([^!]+?)\s*!', 1, LEVEL, NULL, 1 )
           FROM    DUAL
           CONNECT BY LEVEL <= REGEXP_COUNT( t.text, '!\s*([^!]+?)\s*!' )
         )
         AS SYS.ODCIVARCHAR2LIST
       ) AS words
FROM   (
  SELECT  id,
          COLUMN_VALUE AS grp_no,
          REGEXP_SUBSTR( value, '\|([^|]+)\|', 1, COLUMN_VALUE, NULL, 1 ) AS text
  FROM    table_name t,
          TABLE(
            CAST(
              MULTISET(
                SELECT  LEVEL
                FROM    DUAL
                CONNECT BY LEVEL <= REGEXP_COUNT( t.value, '\|([^|]+)\|' )
              )
              AS SYS.ODCINUMBERLIST
            )
          )
) t;

结果：

       ID     GRP_NO WORDS
---------- ---------- --------------------------------------------------------
         1          1 SYS.ODCIVARCHAR2LIST('123','word1','word2','word3')
         1          2 SYS.ODCIVARCHAR2LIST('789','word4','word5','word6')
         1          3 SYS.ODCIVARCHAR2LIST('2345','word7','word8','890')
         2          1 SYS.ODCIVARCHAR2LIST('321','word1a','word2a','word3a')
         2          2 SYS.ODCIVARCHAR2LIST('987','word4a','word5a','word6a')
         2          3 SYS.ODCIVARCHAR2LIST('5432','word7a','word8a','098')

查询 2：

SELECT id,
       grp_no,
       REGEXP_SUBSTR( t.text, '!\s*([^!]+)!', 1, 1, NULL, 1 ) AS Word1,
       REGEXP_SUBSTR( t.text, '!\s*([^!]+)!', 1, 2, NULL, 1 ) AS Word2,
       REGEXP_SUBSTR( t.text, '!\s*([^!]+)!', 1, 3, NULL, 1 ) AS Word3,
       REGEXP_SUBSTR( t.text, '!\s*([^!]+)!', 1, 4, NULL, 1 ) AS Word4
FROM   (
  SELECT  id,
          COLUMN_VALUE AS grp_no,
          REGEXP_SUBSTR( value, '\|([^|]+)\|', 1, COLUMN_VALUE, NULL, 1 ) AS text
  FROM    table_name t,
          TABLE(
            CAST(
              MULTISET(
                SELECT  LEVEL
                FROM    DUAL
                CONNECT BY LEVEL <= REGEXP_COUNT( t.value, '\|([^|]+)\|' )
              )
              AS SYS.ODCINUMBERLIST
            )
          )
) t;

结果：

ID   GRP_NO WORD1   WORD2   WORD3   WORD4
---- ------ ------- ------- ------- -------
   1      1 123     word1   word2   word3        
   1      2 789     word4   word5   word6 
   1      3 2345    word7   word8   890    
   2      1 321     word1a  word2a  word3a
   2      2 987     word4a  word5a  word6a   
   2      3 5432    word7a  word8a  098

【讨论】：