如何优化正则表达式中的边界检查？答案

【问题标题】：How to optimize checking for boundaries in regular expression?如何优化正则表达式中的边界检查？
【发布时间】：2021-09-01 00:57:34
【问题描述】：

我正在编写一种编程语言并创建自己的正则表达式实现。我想采用BaseChar 块，它有一堆范围：

BaseChar       ::=      [#x0041-#x005A] | [#x0061-#x007A] | [#x00C0-#x00D6] | [#x00D8-#x00F6] | [#x00F8-#x00FF] | [#x0100-#x0131] | [#x0134-#x013E] | [#x0141-#x0148] | [#x014A-#x017E] | [#x0180-#x01C3] | [#x01CD-#x01F0] | [#x01F4-#x01F5] | [#x01FA-#x0217] | [#x0250-#x02A8] | [#x02BB-#x02C1] | #x0386 | [#x0388-#x038A] | #x038C | [#x038E-#x03A1] | [#x03A3-#x03CE] | [#x03D0-#x03D6] | #x03DA | #x03DC | #x03DE | #x03E0 | [#x03E2-#x03F3] | [#x0401-#x040C] | [#x040E-#x044F] | [#x0451-#x045C] | [#x045E-#x0481] | [#x0490-#x04C4] | [#x04C7-#x04C8] | [#x04CB-#x04CC] | [#x04D0-#x04EB] | [#x04EE-#x04F5] | [#x04F8-#x04F9] | [#x0531-#x0556] | #x0559 | [#x0561-#x0586] | [#x05D0-#x05EA] | [#x05F0-#x05F2] | [#x0621-#x063A] | [#x0641-#x064A] | [#x0671-#x06B7] | [#x06BA-#x06BE] | [#x06C0-#x06CE] | [#x06D0-#x06D3] | #x06D5 | [#x06E5-#x06E6] | [#x0905-#x0939] | #x093D | [#x0958-#x0961] | [#x0985-#x098C] | [#x098F-#x0990] | [#x0993-#x09A8] | [#x09AA-#x09B0] | #x09B2 | [#x09B6-#x09B9] | [#x09DC-#x09DD] | [#x09DF-#x09E1] | [#x09F0-#x09F1] | [#x0A05-#x0A0A] | [#x0A0F-#x0A10] | [#x0A13-#x0A28] | [#x0A2A-#x0A30] | [#x0A32-#x0A33] | [#x0A35-#x0A36] | [#x0A38-#x0A39] | [#x0A59-#x0A5C] | #x0A5E | [#x0A72-#x0A74] | [#x0A85-#x0A8B] | #x0A8D | [#x0A8F-#x0A91] | [#x0A93-#x0AA8] | [#x0AAA-#x0AB0] | [#x0AB2-#x0AB3] | [#x0AB5-#x0AB9] | #x0ABD | #x0AE0 | [#x0B05-#x0B0C] | [#x0B0F-#x0B10] | [#x0B13-#x0B28] | [#x0B2A-#x0B30] | [#x0B32-#x0B33] | [#x0B36-#x0B39] | #x0B3D | [#x0B5C-#x0B5D] | [#x0B5F-#x0B61] | [#x0B85-#x0B8A] | [#x0B8E-#x0B90] | [#x0B92-#x0B95] | [#x0B99-#x0B9A] | #x0B9C | [#x0B9E-#x0B9F] | [#x0BA3-#x0BA4] | [#x0BA8-#x0BAA] | [#x0BAE-#x0BB5] | [#x0BB7-#x0BB9] | [#x0C05-#x0C0C] | [#x0C0E-#x0C10] | [#x0C12-#x0C28] | [#x0C2A-#x0C33] | [#x0C35-#x0C39] | [#x0C60-#x0C61] | [#x0C85-#x0C8C] | [#x0C8E-#x0C90] | [#x0C92-#x0CA8] | [#x0CAA-#x0CB3] | [#x0CB5-#x0CB9] | #x0CDE | [#x0CE0-#x0CE1] | [#x0D05-#x0D0C] | [#x0D0E-#x0D10] | [#x0D12-#x0D28] | [#x0D2A-#x0D39] | [#x0D60-#x0D61] | [#x0E01-#x0E2E] | #x0E30 | [#x0E32-#x0E33] | [#x0E40-#x0E45] | [#x0E81-#x0E82] | #x0E84 | [#x0E87-#x0E88] | #x0E8A | #x0E8D | [#x0E94-#x0E97] | [#x0E99-#x0E9F] | [#x0EA1-#x0EA3] | #x0EA5 | #x0EA7 | [#x0EAA-#x0EAB] | [#x0EAD-#x0EAE] | #x0EB0 | [#x0EB2-#x0EB3] | #x0EBD | [#x0EC0-#x0EC4] | [#x0F40-#x0F47] | [#x0F49-#x0F69] | [#x10A0-#x10C5] | [#x10D0-#x10F6] | #x1100 | [#x1102-#x1103] | [#x1105-#x1107] | #x1109 | [#x110B-#x110C] | [#x110E-#x1112] | #x113C | #x113E | #x1140 | #x114C | #x114E | #x1150 | [#x1154-#x1155] | #x1159 | [#x115F-#x1161] | #x1163 | #x1165 | #x1167 | #x1169 | [#x116D-#x116E] | [#x1172-#x1173] | #x1175 | #x119E | #x11A8 | #x11AB | [#x11AE-#x11AF] | [#x11B7-#x11B8] | #x11BA | [#x11BC-#x11C2] | #x11EB | #x11F0 | #x11F9 | [#x1E00-#x1E9B] | [#x1EA0-#x1EF9] | [#x1F00-#x1F15] | [#x1F18-#x1F1D] | [#x1F20-#x1F45] | [#x1F48-#x1F4D] | [#x1F50-#x1F57] | #x1F59 | #x1F5B | #x1F5D | [#x1F5F-#x1F7D] | [#x1F80-#x1FB4] | [#x1FB6-#x1FBC] | #x1FBE | [#x1FC2-#x1FC4] | [#x1FC6-#x1FCC] | [#x1FD0-#x1FD3] | [#x1FD6-#x1FDB] | [#x1FE0-#x1FEC] | [#x1FF2-#x1FF4] | [#x1FF6-#x1FFC] | #x2126 | [#x212A-#x212B] | #x212E | [#x2180-#x2182] | [#x3041-#x3094] | [#x30A1-#x30FA] | [#x3105-#x312C] | [#xAC00-#xD7A3]

并将其转化为最优的条件分支。现在，就好像它这样做了：

if (x > 10 && x < 20) {
  return true
}

if (x > 30 && x < 40) {
  return true
}

if (x > 50 && x < 60) {
  return true
}

// 100 more range checks...

return false

我应该只为每个范围执行 if/then，还是有一些魔术技巧可以使其更加优化，所以如果我们有一个与范围列表中的最后一项匹配的值，它就不必检查所有内容在它前面？有什么特殊的技术可以在这里应用进行优化吗？

BaseChar 这个范围是每个字符，所以如果我们的字符匹配模式中的最后一项，并且我们有一个 10000 项的字符串，它将执行 100 * 10000 个条件（假设有 100 个模式），而不是只有 1 * 10000。

【问题讨论】：

标签： regex performance optimization conditional-statements

【解决方案1】：

用这样的条件检查结果效率不高，尤其是当有很多范围要检查时。当处理器无法预测条件（例如，随机/数据相关行为）或它们太多时（CPU 预测器有一个缓存来记住条件是否经常成功/失败，但这个缓存非常小），条件很慢）。平均而言，如果所采用的分支的概率分布是均匀的，则将执行一半的条件，或者如果仔细选择范围，则可能会执行更少的条件（必须首先出现更频繁的情况以切断计算）。

加快此速度的一种解决方案是使用查找表 (LUT)。如果在循环中完成，查找表可以很好地提高此计算的吞吐量，但是当代码很少执行时，它们也会引入高延迟开销。这个想法是为代表x 值的每个单元格预先计算一个布尔值数组。第一个天真的尝试是创建一个大小为 0x10000 的布尔数组。生成的代码将只是 return lut[x]; 其中例如 lut[0] == false、lut[10] == false、lut[11] == true 等。

LUT 必须保持较小。实际上，LUT 越大，计算越慢（由于将 LUT 保存在缓存中并可能从 RAM 中加载、生成它等等的额外开销）。第一个优化是生成大小为0x2200（小8 倍）的LUT，并仅在x < 0x2000（覆盖>95% 的测试范围）应该非常频繁时检查它。否则，将使用初始慢速方法测试

if(x < 0x2000)
    return lut[x];
return x == 0x2126 || x > x212A && x < 0x212B || ...;

另一个可能的优化是使用位打包压缩LUT。这个想法是每个字节打包 8 个布尔值，这样 LUT 可以只占用 1 KB（在主流平台上）。如果您的目标语言是 C++，请注意 std::vector<bool> 已经实现了这一点。否则，必须修改 LUT 的生成，并将lut[x] 替换为(lut[x >> 3] >> (x & 0x07)) & 0x01。就用例而言，这可能会更快，也可能不会更快。

最后，SIMD 指令 可用于大幅加速计算。实际上，几乎 x86-64 处理器提供的 SSE 指令集能够计算每条指令 16 个字节或 8 个 16 位值。最新的 x86-64 处理器上可用的较新的 AVX/AVX2 指令集能够计算每条指令两倍的数据量。最新的 AVX-512 指令集仅在少数最新的 x86-64 处理器上可用，与 AVX/AVX2 相比，每条指令计算的数据量是 AVX/AVX2 的两倍（因此是 SSE 的 4 倍）。如果您知道大多数字符位于特定范围内，则此策略特别好：例如，如果大多数字符是 ASCII 字符，那么您可以非常快速地检查 16/32/64 字符是否是 ASCII 字符并仅在 SIMD 中完全执行范围检查ASCII 范围之一，否则您可以退回到更昂贵的计算（可能使用 LUT 或仍然 SIMD 指令）。

我认为在您的情况下使用（可能是压缩的）LUT 是最好的策略，因为该方法相对简单（与使用 SIMD 指令相比）并且应该已经比原始解决方案快得多。

【讨论】：