【问题标题】：Writing a regular expression for nutch's regex-urlfilter.txt file为 nutch 的 regex-urlfilter.txt 文件编写正则表达式
【发布时间】：2014-05-29 10:10:47
【问题描述】：

我在使用 regex-urlfilter.txt 文件时遇到了一些问题。我只想抓取在“.html”之前有数字的链接，应该很容易，但我做错了......

这是一个例子：

http://www.utiltrucks.com/annonce-occasion-camion-poids-lourd/marque-renault/modele-midliner/ref-71015.html http://www.utiltrucks.com/annonce-occasion-camion-poids-lourd/dpt-.html

我想抓住第一个链接。

我在 regex-urlfilter 中尝试了以下条目：

接受其他任何事情

+http://www.utiltrucks.com/annonce-occasion.+?[0-9]+.html

我收到一条消息：选择 0 条记录进行提取，退出...

有人知道如何解决这个问题吗？

【问题讨论】：

您的正则表达式以+ 开头 - 这是拼写错误吗？应该是^？
嗯，让我试试 ^，我想我已经做到了，但再做一次也无妨:)
我得到了一个无效的第一个字符：^，我相信它必须以 + 号开头才能让 nutch 阅读它...我可能而且可能是错的 :)

标签： regex nutch

【解决方案1】：

请注意，您的 url 过滤器也应该与您的种子 URL 匹配，否则它们将被过滤掉，因此 nutch 将没有任何机会解析它们并提取您想要的链接。

例如，如果您的种子文件包含此 url http://www.utiltrucks.com/home，那么您还应该在您的 regex-urlfilter 文件中添加一个条目，如下所示：

+http://www.utiltrucks.com/home

对于从种子 URL 到要从中提取链接的目标页面的路径中的所有页面，也应执行此操作。

【讨论】：

【解决方案2】：

你必须像开始你的网址

+^(http|https)://www.example.com

【讨论】：