Nutch 获取已经获取的 URL

【问题标题】：Nutch fetches already fetched URLsNutch 获取已经获取的 URL
【发布时间】：2015-01-15 10:27:53
【问题描述】：

我正在尝试使用 Nutch 抓取网站。我使用命令：

inject 用于将 URL 注入数据库
generate/fetch/parse/updatedb 循环

我注意到 Nutch 在每次循环迭代中获取已经获取的 URL。

我所做的配置：

在 regex-urlfilter.txt 中添加了过滤器

在 nutch-site.xml 中添加了配置：

http.agent.name 设置值 MyNutchSpider
http.robots.agents 将值设置为 MyNutchSpider
file.content.limit -1
http.content.limit -1
ftp.content.limit -1
fetcher.server.delay 设置值为 1.0
fetcher.threads.fetch 设置值为 1
parser.character.encoding.default
plugin.includes 添加协议protocol-httpclient
设置 storage.data.store.class 以使用自定义存储

我使用命令：

bin/nutch 生成 -topN 10
bin/nutch fetch -all
bin/nutch 解析 -all
bin/nutch 更新 b -all

我已经尝试过使用 MySQL 的 Nutch 2.2.1 版本和使用 MongoDB 的 2.3 版本。结果是相同的已经获取的 URL 在每次爬网循环迭代时重新获取。

我应该怎么做才能获取所有未抓取的 URL？

【问题讨论】：

标签： nutch

【解决方案1】：

这是 Nutch 2.X 的一个未解决问题。这个周末我也遇到了。

修复计划发布 2.3.1：https://issues.apache.org/jira/browse/NUTCH-1922。

【讨论】：

猜你喜欢

1970-01-01
1970-01-01
2019-04-21
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2014-08-18

相关资源

下载 2022-12-06
下载 2023-03-23
下载 2023-01-02

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode