【问题标题】:How to setup a case-insensitive regex in regex-urlfilter for Nutch 1.7如何在 Nutch 1.7 的 regex-urlfilter 中设置不区分大小写的正则表达式
【发布时间】:2013-12-17 11:04:41
【问题描述】:

我需要根据用户输入过滤 url,但过滤器不能区分大小写。 例如,我的用户想要过滤以 Sewer.pdf 结尾的文件。 如果我创建这样的正则表达式:

+Sewer\.pdf$ 

工作正常,但是用户可能已经输入了 SEWER.PDF,它会跳过该文件。 我的解决方案是创建这样的规则:

+[Ss][Ee][Ww][Ee][Rr]\.[Pp][Dd][Ff]

不过,看起来应该在正则表达式中添加 /i 之类的东西,这样会更容易。

有谁知道如何以更好的方式做到这一点?

【问题讨论】:

    标签: regex web-crawler nutch


    【解决方案1】:

    您可以尝试添加不区分大小写的标志(?i):

    .*(?i)SEWER\.PDF 
    

    【讨论】:

    • 嗯,不,它还没有下载 Sewer.pdf :(
    • 尝试在前面添加.*
    • 有效!实际上它可以在没有.* 的情况下工作,我的实际文件是 Sewer2008.pdf,但我第一次尝试时没有添加 2008。所以两者都可以工作:+.*(?i)SEWER\.PDF 或 +(?i)SEWER\.PDF
    猜你喜欢
    • 1970-01-01
    • 2011-04-22
    • 1970-01-01
    • 2022-01-09
    • 2012-10-08
    • 1970-01-01
    • 2011-04-25
    相关资源
    最近更新 更多