【问题标题】:Nutch - crawl domain firstNutch - 先爬取域名
【发布时间】:2013-03-24 10:46:20
【问题描述】:

我是 Nutch 的新手,并且我尝试让它进行一些特定的爬网,即我希望它首先进入一个特定域(例如维基百科)的 3 层深度 - 这部分可以通过修改正则表达式来实现-urlfilter 文件。

但是我希望它开始抓取它之前获取的所有外部链接,但只有 1 级深度。

所以,我的问题是,有没有办法从第一次运行中获取已爬取链接的列表,以便将它们用作第二次爬取的种子?

【问题讨论】:

    标签: url web-crawler nutch


    【解决方案1】:

    您可以使用以下命令获取爬取的url列表:

    bin/nutch readdb crawl/crawldb -dump file
    

    然后您可以使用该命令的输出手动编辑 urls/seed.txt 文件。

    【讨论】:

    • 是的,感谢您的回复 :) 我通过在 solr 上运行返回 url 的查询解决了这个问题,我忘记了我有与其他东西一起获取的字段 ;)
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-01-18
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多