【问题标题】:Fastest regex for first occurence of a word单词第一次出现的最快正则表达式
【发布时间】:2018-10-24 10:53:48
【问题描述】:

我希望我的正则表达式将以下类型的字符串捕获为两个带有 "%3f" 的 URL。

https://*****%3f****%3D,https://*****%3f****%3D …

应自行捕获此类型的每个字符串 URL。注意 - * 在这里是为了简化,并且 URLS 可以位于大字符串的任何部分,介于两者之间。

我现在的正则表达式是:

(https://\S+?%3f)(?<toDelete>\S+?%3D)

但我被要求查看是否有非惰性方法(或只是更快的版本),因为它比贪婪慢得多,并且这个正则表达式将在巨大的字符串和数据流上调用。 请注意,我不能简单地输入\S* 的原因是这样做会在一个匹配中捕获从第一个http 到最后一个%3D

【问题讨论】:

  • 为什么不用逗号分割然后得到%3f之前的子串呢?如果要使用正则表达式,为什么要捕获%3f 之后的内容?只需使用https://\S*?%3f。或者 - 如果你想要一个超高效的正则表达式 - https://[^%\s]*(?:%(?!3f)[^%\s]*)*%3f
  • 只是为了确定你能显示你想要的输出吗?不要假设正则表达式是最快的方法,我很确定@WiktorStribiżew 暗示 String.Split 可能会在这里胜过正则表达式。
  • 它并不总是用逗号分隔,它可以在我的字符串的任何部分。正如我的正则表达式建议的那样,我想删除 %3f 之后的部分,所以我需要捕获它。

标签: c# regex


【解决方案1】:

你可能会用逗号分割字符串,然后得到一个子字符串,直到 %3f 值。

如果您想让\S*? 模式“更快”工作,您必须考虑模式的这一部分应该注意什么样的上下文。

您正在匹配任何不是空白字符的字符,任意次数,直到第一次出现%3f。也就是说,您希望匹配除% 和空格 % 之外的任何字符,这些字符后面没有3f。这使得(?:[^\s%]|%(?!3f))*。然而,交替破坏了优化的整个想法。您需要使用“unroll-the-loop”方法:[^%\s]*(?:%(?!3f)[^%\s]*)*

所以,整个模式看起来像

https://[^%\s]*(?:%(?!3f)[^%\s]*)*%3f

或者使用Delete 部分:

(https://[^%\s]*(?:%(?!3f)[^%\s]*)*%3f)(?<toDelete>[^%\s]*(?:%(?!3D)[^%\s]*)*%3D)

对于短字符串,最后一个模式可能比基于 \S+? 的模式慢一点,但当匹配的字符串变长时,它会变得更加高效。

【讨论】:

  • 谢谢 - 这正是我想要的 :)
  • @OhadBitton 很高兴它对你有用。如果我的回答对您有帮助,也请考虑投票
猜你喜欢
  • 2021-01-26
  • 2016-11-24
  • 1970-01-01
  • 2012-04-18
  • 1970-01-01
  • 2012-01-12
  • 2016-03-18
相关资源
最近更新 更多