【问题标题】:How to set up regex in nutch for filtering URL of techcrunch?如何在 nutch 中设置正则表达式以过滤 techcrunch 的 URL?
【发布时间】:2013-07-22 21:35:44
【问题描述】:

我想抓取2013年1月1日之后上传的Techcrunch的页面。网站遵循模式

             http://www.techcrunch.com/YYYY/MM/DD

所以我的问题是如何在 nutch 中设置 urlfilter 中的正则表达式,以便我可以只抓取我想要的页面。

             +^http://www.techcrunch.com/2013/dd/dd/([a-z0-9\-A-Z]*\/)*

【问题讨论】:

    标签: regex nutch


    【解决方案1】:

    我不知道 nutch 但你试试看:

    +^http://www.techcrunch.com/2013/[0-9]{2}/[0-9]{2}.*$
    

    +^http://www.techcrunch.com/2013/[0-9]+/[0-9]+.*$
    

    【讨论】:

      【解决方案2】:

      以下表达式将匹配您需要的 URL:

      无组

      http:\/\/www.techcrunch.com\/\d{4}\/\d{2}\/\d{2}\/\w+
      

      与组

      http:\/\/www.techcrunch.com\/(\d{4})\/(\d{2})\/(\d{2})\/(\w+)
      

      我没有放置锚点 (^$),但是如果您需要它们进行过滤,可以放置它们。

      尝试它们,看看它们中的任何一个是否有效。

      我不知道 nutch 是如何工作的,但是关于您的正则表达式的一些建议可能适用:正则表达式中的 / 应该被转义; dd 部分应为 \d\d,因此它们匹配两位数。

      关于设置正则表达式,请查看this answer 看看它是否对您有帮助。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多