【发布时间】:2010-10-05 21:30:25
【问题描述】:
我正在寻找一种在 Ruby 中对字符串执行正则表达式匹配并在第一次匹配时使其短路的方法。
我正在处理的字符串很长,从看起来标准的方式(match 方法)来看,它会处理整个事情,收集每个匹配项,并返回一个包含所有匹配项的 MatchData 对象。
match = string.match(/regex/)[0].to_s
【问题讨论】:
我正在寻找一种在 Ruby 中对字符串执行正则表达式匹配并在第一次匹配时使其短路的方法。
我正在处理的字符串很长,从看起来标准的方式(match 方法)来看,它会处理整个事情,收集每个匹配项,并返回一个包含所有匹配项的 MatchData 对象。
match = string.match(/regex/)[0].to_s
【问题讨论】:
你可以试试String#[](如variableName[/regular expression/])。
这是 IRB 的示例输出:
names = "erik kalle johan anders erik kalle johan anders"
# => "erik kalle johan anders erik kalle johan anders"
names[/kalle/]
# => "kalle"
【讨论】:
capture 参数——它可以让您返回捕获而不是完整匹配。
你可以使用[]:(类似于match)
"foo+account2@gmail.com"[/\+([^@]+)/, 1] # matches capture group 1, i.e. what is inside ()
# => "account2"
"foo+account2@gmail.com"[/\+([^@]+)/] # matches capture group 0, i.e. the whole match
# => "+account2"
【讨论】:
如果只有匹配的存在很重要,你可以选择
/regexp/ =~ "string"
不管怎样,match 应该只返回第一个命中,而scan 搜索整个字符串。因此,如果
matchData = "string string".match(/string/)
matchData[0] # => "string"
matchData[1] # => nil - it's the first capture group not a second match
【讨论】:
$1 等,那么 =~ 可以很好地返回匹配项。
我还不确定这个功能是真棒还是完全疯狂,但你的正则表达式可以定义局部变量。
/\$(?<dollars>\d+)\.(?<cents>\d+)/ =~ "$3.67" #=> 0
dollars #=> "3"
【讨论】:
regex =~ string 时有效,在 string =~ regex 时无效
正则表达式 (regex) 只不过是一个有限状态机 (FSM)。
FSM 试图回答“这种状态是否可能?”的问题
它一直尝试进行模式匹配,直到找到匹配项(成功),或者直到探索了所有路径但没有找到匹配项(失败)。
关于成功,问题是“这种状态是否可能?”已回答“是”。因此不需要进一步的匹配并且正则表达式返回。
进一步:here is an interesting example 演示正则表达式的工作原理。在这里,正则表达式用于检测给定数字是否为素数。这个例子是用 perl 编写的,但也可以用 ruby 编写。
【讨论】: