即使从 seed.txt (Nutch 2.1) 中删除 URL，网站也会被抓取

【问题标题】：Sites are crawled even when the URL is removed from seed.txt (Nutch 2.1)即使从 seed.txt (Nutch 2.1) 中删除 URL，网站也会被抓取
【发布时间】：2013-04-16 18:56:35
【问题描述】：

我在seed.txt 中使用url-1 执行了成功的爬取，我可以在MySQL 数据库中看到爬取的数据。现在，当我尝试通过将 seed.txt 中的 url-1 替换为 url-2 来执行另一次新的爬网时，新的爬网从获取步骤开始，并且它试图获取的 url 是 seed.txt 中的旧替换 url。我不确定它是从哪里获取旧网址的。

我试图检查隐藏的种子文件，但我没有找到任何文件，并且在 NUTCH_HOME/runtime/local 中只有一个文件夹 urls/seed.txt 我运行我的抓取命令。请告知可能是什么问题？

【问题讨论】：

标签： nutch web-crawler

【解决方案1】：

您的抓取数据库包含要抓取的网址列表。除非您删除原始抓取目录或创建新目录作为新抓取的一部分，否则将使用原始 URL 列表并使用新 URL 进行扩展。

【讨论】：

感谢您的回复，克劳德。我有兴趣将每个新的爬网数据附加到我在以下链接创建的 MySQL 网页表中的旧爬网数据中：nlp.solutions.asia/?p=180。在每次爬取时，我都在爬取不同的网站，我希望所有爬取的数据都进入同一个 MySQL 爬取数据库。所以我不敢删除原始数据。请建议

猜你喜欢

1970-01-01
1970-01-01
2012-08-04
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2012-07-22
1970-01-01

相关资源

下载 2023-01-28
下载 2022-12-24
下载 2023-03-28
下载 2022-12-17

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode