【问题标题】:Writing a regular expression for nutch's regex-urlfilter.txt file为 nutch 的 regex-urlfilter.txt 文件编写正则表达式
【发布时间】:2014-05-29 10:10:47
【问题描述】:

我在使用 regex-urlfilter.txt 文件时遇到了一些问题。 我只想抓取在“.html”之前有数字的链接,应该很容易,但我做错了......

这是一个例子:

http://www.utiltrucks.com/annonce-occasion-camion-poids-lourd/marque-renault/modele-midliner/ref-71015.html http://www.utiltrucks.com/annonce-occasion-camion-poids-lourd/dpt-.html

我想抓住第一个链接。

我在 regex-urlfilter 中尝试了以下条目:

接受其他任何事情

+http://www.utiltrucks.com/annonce-occasion.+?[0-9]+.html

我收到一条消息: 选择 0 条记录进行提取,退出...

有人知道如何解决这个问题吗?

【问题讨论】:

  • 您的正则表达式以+ 开头 - 这是拼写错误吗?应该是^
  • 嗯,让我试试 ^,我想我已经做到了,但再做一次也无妨:)
  • 我得到了一个无效的第一个字符:^,我相信它必须以 + 号开头才能让 nutch 阅读它...我可能而且可能是错的 :)

标签: regex nutch


【解决方案1】:

请注意,您的 url 过滤器也应该与您的种子 URL 匹配,否则它们将被过滤掉,因此 nutch 将没有任何机会解析它们并提取您想要的链接。

例如,如果您的种子文件包含此 url http://www.utiltrucks.com/home,那么您还应该在您的 regex-urlfilter 文件中添加一个条目,如下所示:

+http://www.utiltrucks.com/home

对于从种子 URL 到要从中提取链接的目标页面的路径中的所有页面,也应执行此操作。

【讨论】:

    【解决方案2】:

    你必须像开始你的网址

    +^(http|https)://www.example.com
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多