【发布时间】:2018-08-27 01:49:41
【问题描述】:
我是一名学生,正在从事一个小型研究项目,我需要抓取符合以下要求的网页:- 如果在文本中的任何位置找到单词 X 说“abc”,如果它出现在 X 出现两侧的 25 个字符窗口内,则查找模式 Y 说“pqr”。 例如。
pqrxyz 有效。
xyz 无效。
xyzpqr 有效。
pqr123456789123456789123456789xyz 无效。
我想不通。任何帮助将不胜感激。
((?=pqr).{20,}abc) | (pqr{20,}(?!abc))
这是我迄今为止的尝试。我不知道如何合并 20 个字符的窗口约束。
【问题讨论】:
-
您是否尝试过自己编写这样的正则表达式?请发布您尝试过的代码
-
您可以使用
r'pqr.{0,25}xyz|xyz.{0,25}pqr'