【问题标题】:How to write regular expression in nutch?如何用 nutch 写正则表达式?
【发布时间】:2016-01-18 09:51:56
【问题描述】:

我正在使用 Nutch 来抓取网页。我在编写正则表达式时遇到问题。

使用以下配置可以正常工作: 种子网址: www.practo.com (以 https:// 开头)

正则表达式-urlfilter.txt: +^https://www.practo.com/

但我只想获取特定页面,例如包含“心脏病专家”信息的页面 示例:我想获取如下页面: www.practo.com/hyderabad/doctor/some-name-cardiologist 即我想获取以某个关键字结尾的页面。

我正在使用以下正则表达式: +^https://www.practo.com(/[a-z0-9]*)*心脏病专家

请帮我写正则表达式。

【问题讨论】:

    标签: regex nutch


    【解决方案1】:

    我的问题得到了答案。问题在于获取正确的正则表达式。

    +^(https|http)://([a-zA-Z0-9./-]+)心脏病专家([a-zA-Z0-9-#?=])*

    以下网站帮助我找到正确的表达方式:https://regex101.com/

    【讨论】:

      【解决方案2】:

      您可以使用以下内容:

      +^https://www\.practo\.com.*cardiologist
      

      【讨论】:

      • 谢谢,但它不起作用。出现以下错误消息:在 depth=0 处停止 - 没有要获取的 URL。没有要获取的 URL - 检查您的种子列表和 URL 过滤器。爬行完成:有氧运动
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-05-25
      • 1970-01-01
      • 2020-11-06
      • 1970-01-01
      相关资源
      最近更新 更多