【发布时间】:2015-01-15 10:27:53
【问题描述】:
我正在尝试使用 Nutch 抓取网站。我使用命令:
- inject 用于将 URL 注入数据库
- generate/fetch/parse/updatedb 循环
我注意到 Nutch 在每次循环迭代中获取已经获取的 URL。
我所做的配置:
- 在 regex-urlfilter.txt 中添加了过滤器
在 nutch-site.xml 中添加了配置:
- http.agent.name 设置值 MyNutchSpider
- http.robots.agents 将值设置为 MyNutchSpider
- file.content.limit -1
- http.content.limit -1
- ftp.content.limit -1
- fetcher.server.delay 设置值为 1.0
- fetcher.threads.fetch 设置值为 1
- parser.character.encoding.default
- plugin.includes 添加协议protocol-httpclient
- 设置 storage.data.store.class 以使用自定义存储
我使用命令:
- bin/nutch 生成 -topN 10
- bin/nutch fetch -all
- bin/nutch 解析 -all
- bin/nutch 更新 b -all
我已经尝试过使用 MySQL 的 Nutch 2.2.1 版本和使用 MongoDB 的 2.3 版本。结果是相同的已经获取的 URL 在每次爬网循环迭代时重新获取。
我应该怎么做才能获取所有未抓取的 URL?
【问题讨论】:
标签: nutch