【发布时间】:2017-02-27 23:29:42
【问题描述】:
我使用的是 Apache Nutch 1.12,我尝试抓取的 URL 类似于 https://www.mywebsite.com/abc-def/,这是我的 seed.txt 文件中的唯一条目。由于我不希望抓取任何 URL 中没有“abc-def”的页面,所以我在 regex-urlfilter.txt 中添加了以下行:
+^https://www.mywebsite.com/abc-def/(.+)*$
当我尝试运行以下抓取命令时:
**/bin/crawl -i -D solr.server.url=http://mysolr:3737/solr/coreName $NUTCH_HOME/urls/ $NUTCH_HOME/crawl 3**
它只抓取和索引一个seed.txt url,在第二次迭代中它只是说:
Generator: starting at 2017-02-28 09:51:36
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: false
Generator: normalizing: true
Generator: topN: 50000
Generator: 0 records selected for fetching, exiting ...
Generate returned 1 (no new segments created)
Escaping loop: no more URLs to fetch now
当我更改 regex-urlfilter.txt 以允许所有内容(+。)时,它开始索引 https://www.mywebsite.com 上的每个 URL,这当然是我不想要的。
如果有人碰巧遇到同样的问题,请分享你是如何解决的。
【问题讨论】:
标签: apache web-crawler nutch