【发布时间】:2012-08-07 21:00:42
【问题描述】:
我可以统计正则表达式中匹配的每个不同字符本身吗?
假设正则表达式看起来像/>(.*)[^a]+/
我可以统计p 组捕获的字符串中p 的出现次数吗?
【问题讨论】:
我可以统计正则表达式中匹配的每个不同字符本身吗?
假设正则表达式看起来像/>(.*)[^a]+/
我可以统计p 组捕获的字符串中p 的出现次数吗?
【问题讨论】:
您必须捕获匹配的字符串并单独处理它。
这段代码演示
use strict;
use warnings;
my $str = '> plantagenetgoosewagonattributes';
if ($str =~ />(.*)[^a]+/) {
my $substr = $1;
my %counts;
$counts{$_}++ for $substr =~ /./g;
print "'$_' - $counts{$_}\n" for sort keys %counts;
}
输出
' ' - 1
'a' - 4
'b' - 1
'e' - 4
'g' - 3
'i' - 1
'l' - 1
'n' - 3
'o' - 3
'p' - 1
'r' - 1
's' - 1
't' - 5
'u' - 1
'w' - 1
【讨论】:
在正则表达式之外:
my $p_count = map /p/g, />(.*)[^a]/;
自成体系:
local our $p_count;
/
(?{ 0 })
>
(?: p (?{ $^R + 1 })
| [^p]
)*
[^a]
(?{ $p_count = $^R; })
/x;
在这两种情况下,您都可以轻松地将其扩展为计算所有字母。例如,
my %counts;
if (my ($seq = />(.*)[^a]/) {
++$counts{$_} for split //, $seq;
}
my $p_count = $counts{'p'};
【讨论】:
AFAIK,你不能。您只能通过括号捕获某些组,然后检查该组捕获的数据长度。
【讨论】:
按照 Borodin 的解决方案,这是一个纯 bash 解决方案:
let count=0
testarray=(a b c d e f g h i j k l m n o p q r s t u v w x y z)
string="> plantagenetgoosewagonattributes" # the string
pattern=">(.*)[^a]+" # regex pattern
limitvar=${#testarray[@]} #array length
[[ $string =~ $pattern ]] &&
( while [ $count -lt $limitvar ] ; do sub="${BASH_REMATCH[1]//[^${testarray[$count]}]}" ; echo "${testarray[$count]} = ${#sub}" ; ((count++)) ; done )
从 bash 3.0 开始,bash 引入了可以通过 BASH_REMATCH[n] 访问的捕获组。
解决方案将字符声明为数组 [查看declare -a 以了解复杂情况下的数组声明]。单个字符计数不需要计数变量,不需要 while 构造,而是字符的变量而不是数组.
如果您在上面的代码中包含范围,则此数组声明会执行确切的操作。
testarray=(`echo {a..z}`)
if的介绍
循环将考虑 0 计数字符的显示。我想让解决方案尽可能简单。
【讨论】:
有实验,别用我,(?{ code })构造...
来自man perlre:
"(?{ 代码})" 警告:这个扩展的正则表达式功能被认为是实验性的,并且可能是 更改,恕不另行通知。执行的具有副作用的代码可能不会以相同的方式执行 由于正则表达式引擎中未来优化的影响,从一个版本到另一个版本。
如果这没有把你吓跑,这里有一个例子,计算“p”的数量
my $p_count;
">pppppbca" =~ /(?{ $p_count = 0 })>(p(?{$p_count++})|.)*[^a]+/;
print "$p_count\n";
【讨论】:
ppppp 和 pppppa 应该返回 4,但返回 5。)
(?{ }) 内部使用my 声明的变量在(?{ }) 内部在某些情况下会导致不正确的结果。使用local our 而不是my。
首先说明:由于 * 的贪婪,最后一个 [^a]+ 永远不会匹配多个非字符 - 即,您不妨放弃 +。
正如@mvf 所说,您需要捕获通配符匹配的字符串才能计算其中的字符。 Perl 正则表达式无法返回特定组匹配次数的计数 - 引擎可能会保留该数字以支持 {,n} 机制,但您无法获得它。
【讨论】: