【发布时间】:2013-07-22 21:35:44
【问题描述】:
我想抓取2013年1月1日之后上传的Techcrunch的页面。网站遵循模式
http://www.techcrunch.com/YYYY/MM/DD
所以我的问题是如何在 nutch 中设置 urlfilter 中的正则表达式,以便我可以只抓取我想要的页面。
+^http://www.techcrunch.com/2013/dd/dd/([a-z0-9\-A-Z]*\/)*
【问题讨论】: