【发布时间】:2012-12-02 03:50:47
【问题描述】:
我正在使用与 mysql 集成的 Nutch 2.1。我已经爬取了 2 个站点,Nutch 成功爬取了它们并将数据存储到了 Mysql 中。我正在使用 Solr 4.0.0 进行搜索。
现在我的问题是,当我尝试重新抓取某些网站(如 trailer.apple.com 或任何其他网站)时,它总是抓取最后抓取的网址。甚至我已经从 seed.txt 文件中删除了最后抓取的 url 并输入了新的 Urls。但 Nutch 并没有抓取新的 Urls。
谁能告诉我,我到底做错了什么。
还请向我推荐任何可以帮助抓取视频和电影网站的 Nutch 插件。
任何帮助都会非常显着。
【问题讨论】:
标签: nutch web-crawler