【问题标题】:Sites are crawled even when the URL is removed from seed.txt (Nutch 2.1)即使从 seed.txt (Nutch 2.1) 中删除 URL,网站也会被抓取
【发布时间】:2013-04-16 18:56:35
【问题描述】:

我在seed.txt 中使用url-1 执行了成功的爬取,我可以在MySQL 数据库中看到爬取的数据。现在,当我尝试通过将 seed.txt 中的 url-1 替换为 url-2 来执行另一次新的爬网时,新的爬网从获取步骤开始,并且它试图获取的 url 是 seed.txt 中的旧替换 url。我不确定它是从哪里获取旧网址的。

我试图检查隐藏的种子文件,但我没有找到任何文件,并且在 NUTCH_HOME/runtime/local 中只有一个文件夹 urls/seed.txt 我运行我的抓取命令。请告知可能是什么问题?

【问题讨论】:

    标签: nutch web-crawler


    【解决方案1】:

    您的抓取数据库包含要抓取的网址列表。除非您删除原始抓取目录或创建新目录作为新抓取的一部分,否则将使用原始 URL 列表并使用新 URL 进行扩展。

    【讨论】:

    • 感谢您的回复,克劳德。我有兴趣将每个新的爬网数据附加到我在以下链接创建的 MySQL 网页表中的旧爬网数据中:nlp.solutions.asia/?p=180。在每次爬取时,我都在爬取不同的网站,我希望所有爬取的数据都进入同一个 MySQL 爬取数据库。所以我不敢删除原始数据。请建议
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2012-08-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-07-22
    • 1970-01-01
    相关资源
    最近更新 更多