【问题标题】:Count the number of matches of a particular character in a string matched by a regex wildcard计算与正则表达式通配符匹配的字符串中特定字符的匹配次数
【发布时间】:2012-08-07 21:00:42
【问题描述】:

我可以统计正则表达式中匹配的每个不同字符本身吗?

假设正则表达式看起来像/>(.*)[^a]+/

我可以统计p 组捕获的字符串中p 的出现次数吗?

【问题讨论】:

    标签: regex perl bash sed awk


    【解决方案1】:

    您必须捕获匹配的字符串并单独处理它。

    这段代码演示

    use strict;
    use warnings;
    
    my $str = '> plantagenetgoosewagonattributes';
    
    if ($str =~ />(.*)[^a]+/) {
      my $substr = $1;
      my %counts;
      $counts{$_}++ for $substr =~ /./g;
      print "'$_' - $counts{$_}\n" for sort keys %counts;
    }
    

    输出

    ' ' - 1
    'a' - 4
    'b' - 1
    'e' - 4
    'g' - 3
    'i' - 1
    'l' - 1
    'n' - 3
    'o' - 3
    'p' - 1
    'r' - 1
    's' - 1
    't' - 5
    'u' - 1
    'w' - 1
    

    【讨论】:

      【解决方案2】:

      在正则表达式之外:

      my $p_count = map /p/g, />(.*)[^a]/;
      

      自成体系:

      local our $p_count;
      /
         (?{ 0 })
         >
         (?: p (?{ $^R + 1 })
         |   [^p]
         )*
         [^a]
         (?{ $p_count = $^R; })
      /x;
      

      在这两种情况下,您都可以轻松地将其扩展为计算所有字母。例如,

      my %counts;
      if (my ($seq = />(.*)[^a]/) {
         ++$counts{$_} for split //, $seq;
      }
      
      my $p_count = $counts{'p'};
      

      【讨论】:

      • 尝试在 Perl 之外运行你的“自包含”代码 :)(sed、awk、bash - 参见作者标签)。 ;) 不要弄乱在正则表达式的“扩展”语法中运行一些 perl 代码和正则表达式本身的能力。
      • @mvf,不可能*编写一个在所有这些解释器中运行的问题,所以这没有任何意义。 (* -- 你可以写一个“quine”,但这也需要用多种语言编写程序。)
      【解决方案3】:

      AFAIK,你不能。您只能通过括号捕获某些组,然后检查该组捕获的数据长度。

      【讨论】:

      • 甚至可以完全在正则表达式中完成。看我的回答。
      • 否定的“AFAIK”答案基本上总是一个糟糕的发布选择。如果你不能解释为什么这是不可能的,为什么要告诉他们你认为这是不可能的?
      • @Borodin 我也对投票的数量感到惊讶,这就是为什么我投票赞成你的评论:) 但问题是“我可以”,而简短而正确的答案是“你不能”。赞成票的数量,以及其他合理答案的缺乏证明这是唯一好的答案:)
      • 还有,@Mark,我添加 AFAIK 的原因是什么。我很清楚,而且我在该领域有丰富的经验,我的回答很确定,但很难证明。但是我总是愿意了解更多,如果 regexp 库的作者会告诉我 - '是的,该功能存在,但我忘记记录它',我会改变主意 :) 解释为什么某些事情是不可能- 太难了。例如,试着向我解释为什么人们不能飞行。你可以引用整本关于力学的手册,但即使在那之后你怎么能确定呢? :)
      【解决方案4】:

      按照 Borodin 的解决方案,这是一个纯 bash 解决方案:

      let count=0  
      testarray=(a b c d e f g h i j k l m n o p q r s t u v w x y z) 
      
      string="> plantagenetgoosewagonattributes"                 # the string 
      pattern=">(.*)[^a]+"                                   # regex pattern
      
      limitvar=${#testarray[@]}                                  #array length
      
      [[ $string =~ $pattern ]] && 
      ( while [ $count -lt $limitvar ] ; do sub="${BASH_REMATCH[1]//[^${testarray[$count]}]}" ; echo "${testarray[$count]} = ${#sub}" ; ((count++)) ; done )
      

      从 bash 3.0 开始,bash 引入了可以通过 BASH_REMATCH[n] 访问的捕获组。

      解决方案将字符声明为数组 [查看declare -a 以了解复杂情况下的数组声明]。单个字符计数不需要计数变量,不需要 while 构造,而是字符的变量而不是数组.

      如果您在上面的代码中包含范围,则此数组声明会执行确切的操作。

      testarray=(`echo {a..z}`)
      

      if的介绍 循环将考虑 0 计数字符的显示。我想让解决方案尽可能简单。

      【讨论】:

        【解决方案5】:

        有实验,别用我,(?{ code })构造...

        来自man perlre

        "(?{ 代码})" 警告:这个扩展的正则表达式功能被认为是实验性的,并且可能是 更改,恕不另行通知。执行的具有副作用的代码可能不会以相同的方式执行 由于正则表达式引擎中未来优化的影响,从一个版本到另一个版本。

        如果这没有把你吓跑,这里有一个例子,计算“p”的数量

        my $p_count;
        ">pppppbca" =~ /(?{ $p_count = 0 })>(p(?{$p_count++})|.)*[^a]+/;
        print "$p_count\n";
        

        【讨论】:

        • 产生不正确的结果,因为您没有考虑回溯。 (ppppppppppa 应该返回 4,但返回 5。)
        • 另外,在(?{ }) 内部使用my 声明的变量在(?{ }) 内部在某些情况下会导致不正确的结果。使用local our 而不是my
        • 两个优点。我承认在尝试编写此示例之前我从未使用过该功能。我确实看到了关于使用本地处理回溯的说明。我不确定为什么要发布这个答案;我不建议使用它,但认为它很有趣,可以指出来。
        【解决方案6】:

        首先说明:由于 * 的贪婪,最后一个 [^a]+ 永远不会匹配多个非字符 - 即,您不妨放弃 +

        正如@mvf 所说,您需要捕获通配符匹配的字符串才能计算其中的字符。 Perl 正则表达式无法返回特定组匹配次数的计数 - 引擎可能会保留该数字以支持 {,n} 机制,但您无法获得它。

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 2011-11-08
          • 2014-11-06
          • 2020-12-28
          • 2018-07-26
          • 1970-01-01
          • 2014-10-08
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多