【发布时间】:2014-05-29 10:10:47
【问题描述】:
我在使用 regex-urlfilter.txt 文件时遇到了一些问题。 我只想抓取在“.html”之前有数字的链接,应该很容易,但我做错了......
这是一个例子:
http://www.utiltrucks.com/annonce-occasion-camion-poids-lourd/marque-renault/modele-midliner/ref-71015.html http://www.utiltrucks.com/annonce-occasion-camion-poids-lourd/dpt-.html
我想抓住第一个链接。
我在 regex-urlfilter 中尝试了以下条目:
接受其他任何事情
+http://www.utiltrucks.com/annonce-occasion.+?[0-9]+.html
我收到一条消息: 选择 0 条记录进行提取,退出...
有人知道如何解决这个问题吗?
【问题讨论】:
-
您的正则表达式以
+开头 - 这是拼写错误吗?应该是^? -
嗯,让我试试 ^,我想我已经做到了,但再做一次也无妨:)
-
我得到了一个无效的第一个字符:^,我相信它必须以 + 号开头才能让 nutch 阅读它...我可能而且可能是错的 :)