【问题标题】:My regex is causing a stack overflow in Java; what am I missing?我的正则表达式导致 Java 中的堆栈溢出;我错过了什么?
【发布时间】:2010-09-10 02:30:50
【问题描述】:

我正在尝试使用带有 Scanner 的正则表达式来匹配文件中的字符串。正则表达式适用于文件的所有内容,除了这一行:

DNA="ITTTAITATIATYAAAYIYI[....]ITYTYITTIYAIAIYIT"

在实际文件中,省略号代表数千个字符。

当读取文件的循环到达包含碱基的行时,会发生堆栈溢出错误。

这是循环:

while (scanFile.hasNextLine()) {
   final String currentLine = scanFile.findInLine(".*");
   System.out.println("trying to match '" + currentLine + "'");
   Scanner internalScanner = new Scanner(currentLine);
   String matchResult = internalScanner.findInLine(Constants.ANIMAL_INFO_REGEX);
   assert matchResult != null : "there's no reason not to find a match"; 
   matches.put(internalScanner.match().group(1), internalScanner.match().group(2));
   scanFile.nextLine();
  }

和正则表达式:

static final String ANIMAL_INFO_REGEX = "([a-zA-Z]+) *= *\"(([a-zA-Z_.]| |\\.)+)";

这是失败的痕迹:

java.lang.StackOverflowError
    at java.util.regex.Pattern$CharProperty.match(Pattern.java:3360)
    at java.util.regex.Pattern$Branch.match(Pattern.java:4131)
    at java.util.regex.Pattern$GroupHead.match(Pattern.java:4185)
    at java.util.regex.Pattern$Loop.match(Pattern.java:4312)
    at java.util.regex.Pattern$GroupTail.match(Pattern.java:4244)
    at java.util.regex.Pattern$BranchConn.match(Pattern.java:4095)
    at java.util.regex.Pattern$CharProperty.match(Pattern.java:3362)
    at java.util.regex.Pattern$Branch.match(Pattern.java:4131)
    at java.util.regex.Pattern$GroupHead.match(Pattern.java:4185)
    at java.util.regex.Pattern$Loop.match(Pattern.java:4312)
    at java.util.regex.Pattern$GroupTail.match(Pattern.java:4244)
    at java.util.regex.Pattern$BranchConn.match(Pattern.java:4095)
    at java.util.regex.Pattern$CharProperty.match(Pattern.java:3362)
    at java.util.regex.Pattern$Branch.match(Pattern.java:4131)
    at java.util.regex.Pattern$GroupHead.match(Pattern.java:4185)
    at java.util.regex.Pattern$Loop.match(Pattern.java:4312)
    at java.util.regex.Pattern$GroupTail.match(Pattern.java:4244)
    at java.util.regex.Pattern$BranchConn.match(Pattern.java:4095)
    ...etc (it's all regex).

非常感谢!

【问题讨论】:

  • 我可以看到它会导致你得到一个stackoverflow...:P~

标签: java regex string stack-overflow


【解决方案1】:

这看起来像 bug 5050507 。我同意 Asaph 的观点,即删除交替应该会有所帮助;该错误特别指出“尽可能避免交替”。我认为您可能会更简单:

"^([a-zA-Z]+) *= *\"([^\"]+)"

【讨论】:

  • +1,但我想强调的是,错误 report 是假的。评估中的注释适用于 任何 正则表达式导向(或 NFA)正则表达式引擎,而不仅仅是 Java 的。 (包括 Perl、Python、PHP、.NET、JavaScript 等。)
【解决方案2】:

试试这个简化版本的正则表达式,它删除了一些不必要的| 运算符(这可能导致正则表达式引擎进行大量分支)并包括行首和行尾锚点。

static final String ANIMAL_INFO_REGEX = "^([a-zA-Z]+) *= *\"([a-zA-Z_. ]+)\"$";

【讨论】:

    【解决方案3】:

    阅读此内容以了解问题:http://www.regular-expressions.info/catastrophic.html ... 然后使用其他建议之一

    【讨论】:

      【解决方案4】:

      正如其他人所说,您的正则表达式的效率远低于应有的效率。我会更进一步,使用所有格量词:

      "^([a-zA-Z]++) *+= *+\"([^\"]++)\"$"
      

      但是您使用扫描仪的方式也没有多大意义。无需使用findInLine(".*") 读取该行;这就是nextLine() 所做的。而且您不需要创建另一个扫描仪来应用您的正则表达式;只需使用 Matcher。

      static final Pattern ANIMAL_INFO_PATTERN = 
          Pattern.compile("^([a-zA-Z]++) *+= *+\"([^\"]++)\"$");
      

      ...

        Matcher lineMatcher = ANIMAL_INFO_PATTERN.matcher("");
        while (scanFile.hasNextLine()) {
          String currentLine = scanFile.nextLine();
          if (lineMatcher.reset(currentLine).matches()) {
            matches.put(lineMatcher.group(1), lineMatcher.group(2));
          }
        }
      

      【讨论】:

        猜你喜欢
        • 2013-07-05
        • 1970-01-01
        • 2013-08-09
        • 2016-12-17
        • 2016-10-07
        • 2018-07-01
        • 2010-09-11
        • 1970-01-01
        • 2013-03-19
        相关资源
        最近更新 更多