如何在 Nutch 1.7 的 regex-urlfilter 中设置不区分大小写的正则表达式答案

【问题标题】：How to setup a case-insensitive regex in regex-urlfilter for Nutch 1.7如何在 Nutch 1.7 的 regex-urlfilter 中设置不区分大小写的正则表达式
【发布时间】：2013-12-17 11:04:41
【问题描述】：

我需要根据用户输入过滤 url，但过滤器不能区分大小写。例如，我的用户想要过滤以 Sewer.pdf 结尾的文件。如果我创建这样的正则表达式：

+Sewer\.pdf$

工作正常，但是用户可能已经输入了 SEWER.PDF，它会跳过该文件。我的解决方案是创建这样的规则：

+[Ss][Ee][Ww][Ee][Rr]\.[Pp][Dd][Ff]

不过，看起来应该在正则表达式中添加 /i 之类的东西，这样会更容易。

有谁知道如何以更好的方式做到这一点？

【问题讨论】：

标签： regex web-crawler nutch

【解决方案1】：

您可以尝试添加不区分大小写的标志(?i):

.*(?i)SEWER\.PDF

【讨论】：

嗯，不，它还没有下载 Sewer.pdf :(
尝试在前面添加.*。
有效！实际上它可以在没有.* 的情况下工作，我的实际文件是 Sewer2008.pdf，但我第一次尝试时没有添加 2008。所以两者都可以工作：+.*(?i)SEWER\.PDF 或 +(?i)SEWER\.PDF