【问题标题】:How to do Erlang pattern matching using regular expressions?如何使用正则表达式进行 Erlang 模式匹配?
【发布时间】:2009-11-02 11:12:31
【问题描述】:

当我编写进行文本解析的 Erlang 程序时,我经常遇到我喜欢使用正则表达式进行模式匹配的情况。

例如,我希望我能做这样的事情,其中​​ ~ 是一个“组成”的正则表达式匹配运算符:

my_function(String ~ ["^[A-Za-z]+[A-Za-z0-9]*$"]) ->
    ....

我知道正则表达式模块 (re),但 AFAIK 你不能在模式匹配或守卫时调用函数。

另外,我希望可以以不区分大小写的方式匹配字符串。这很方便,例如,在解析 HTTP 标头时,我想做这样的事情,其中​​“Str ~ {Pattern, Options}”表示“使用选项选项将 Str 与模式模式匹配”:

handle_accept_language_header(Header ~ {"Accept-Language", [case_insensitive]}) ->
    ...

两个问题:

  1. 您通常如何仅使用标准 Erlang 来处理这个问题?是否有某种机制/编码风格在简洁性和易读性方面接近于此?

  2. 在 Erlang 中是否有任何工作(EEP?)来解决这个问题?

【问题讨论】:

  • 我怀疑 EEP 添加正则表达式作为模式是否受支持。所有当前模式都可以在恒定时间内进行评估,而正则表达式则不能。 (长度/1 可能是恒定时间规则的唯一例外)

标签: regex string erlang text-parsing


【解决方案1】:

除了提前运行正则表达式然后对结果进行模式匹配之外,您真的别无选择。这是一个非常简单的示例,它接近我认为您所追求的,但它确实存在您需要重复正则表达式两次的缺陷。您可以通过使用宏在一个地方定义每个正则表达式来减轻这种痛苦。

-module(multire).

-compile(export_all).

multire([],_) ->
    nomatch;
multire([RE|RegExps],String) ->
    case re:run(String,RE,[{capture,none}]) of
    match ->
        RE;
    nomatch ->
        multire(RegExps,String)
    end.


test(Foo) ->
    test2(multire(["^Hello","world$","^....$"],Foo),Foo).

test2("^Hello",Foo) ->
    io:format("~p matched the hello pattern~n",[Foo]);
test2("world$",Foo) ->
    io:format("~p matched the world pattern~n",[Foo]);
test2("^....$",Foo) ->
    io:format("~p matched the four chars pattern~n",[Foo]);
test2(nomatch,Foo) ->
    io:format("~p failed to match~n",[Foo]).

【讨论】:

    【解决方案2】:

    一种可能是使用 Erlang Web 样式 注释(宏)与 re Erlang 模块相结合。一个例子可能是说明这一点的最佳方式。

    这就是你的最终代码的样子:

    [...]
    ?MATCH({Regexp, Options}).
    foo(_Args) ->
      ok.
    [...]
    

    MATCH 宏将在您的 foo 函数之前执行。如果正则表达式模式不匹配,则执行流程将失败。

    你的匹配函数将被声明如下:

    ?BEFORE.
    match({Regexp, Options}, TgtMod, TgtFun, TgtFunArgs) ->
    String = proplists:get_value(string, TgtArgs),
    case re:run(String, Regexp, Options) of
      nomatch ->
        {error, {TgtMod, match_error, []}};
      {match, _Captured} ->
        {proceed, TgtFunArgs}
    end.
    

    请注意:

    • BEFORE 表示宏将在您的目标函数之前执行(AFTER 宏也可用)。
    • match_error 是您的错误处理程序,在您的模块中指定,并且包含您想要在匹配失败时执行的代码(可能没有,只是阻止执行流程)
    • 这种方法的优点是使正则表达式语法和选项与 re 模块保持一致(避免混淆)。

    更多关于 Erlang Web 注释的信息在这里:

    http://wiki.erlang-web.org/Annotations

    这里:

    http://wiki.erlang-web.org/HowTo/CreateAnnotation

    该软件是开源的,因此您可能希望重用他们的注释引擎。

    【讨论】:

      【解决方案3】:
      1. 对于字符串,您可以使用“re”模块:之后,您可以遍历结果集。恐怕没有其他方法可以做到这一点AFAIK:这就是为什么有正则表达式。

      2. 对于 HTTP 标头,由于可能有很多标头,因此我认为迭代结果集是一个更好的选择而不是编写很长的表达式(可能)。

      3. EEP 工作:我不知道。

      【讨论】:

        【解决方案4】:

        你可以使用 re 模块:

        re:run(String, "^[A-Za-z]+[A-Za-z0-9]*$").
        re:run(String, "^[A-Za-z]+[A-Za-z0-9]*$", [caseless]).
        

        编辑:

        match(String, Regexps) -> 
          case lists:dropwhile(
                       fun({Regexp, Opts}) -> re:run(String, Regexp, Opts) =:= nomatch;
                          (Regexp) -> re:run(String, Regexp) =:= nomatch end,
                       Regexps) of
            [R|_] -> R;
            _     -> nomatch
          end.
        
        example(String) ->
          Regexps = ["$RE1^", {"$RE2^", [caseless]}, "$RE3"]
          case match(String, Regexps) of
            nomatch -> handle_error();
            Regexp -> handle_regexp(String, Regexp)
            ...
        

        【讨论】:

        • 是的,re 模块在正则表达式方面做得很好,但是你 AFAIK 你不能在模式匹配或守卫中调用函数。
        • 如果我只理解你所说的模式匹配是什么意思...... Erlang 应该为你编一个匹配字符串的正则表达式,还是什么?
        • 我认为他想要的是类似 is_match(RegExp,S) bif 用于警卫,所以: foo(X) when is_match(RE1,X) -> one_thing(); foo(X) 当 is_match(RE2,X) -> another_thing()。等
        • 好的,我添加了一个可以做的例子,如果是这样的话。
        【解决方案5】:
        1. Erlang 不处理模式中的正则表达式。
        2. 没有。

        【讨论】:

          【解决方案6】:

          您不能对正则表达式进行模式匹配,抱歉。所以你必须这样做

          my_function(String) -> Matches = re:run(String, "^[A-Za-z]+[A-Za-z0-9]*$"),
                                 ...
          

          【讨论】:

            猜你喜欢
            • 1970-01-01
            • 2016-04-20
            • 1970-01-01
            • 1970-01-01
            • 2011-06-05
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            相关资源
            最近更新 更多