转载自:http://peigang.iteye.com/blog/1563288

从nutch-1.3开始 本地抓取(单击) 和 分布式抓取(集群)所使用的配置文件和命令单独分开。

资源:
下载地址:http://archive.apache.org/dist/nutch/1.7/
apache-nutch-1.7-bin.tar  这个是部署的可执行的
apache-nutch-1.7-src.tar  这个用于导入eclipse进行开发

Ant 后会生成两个文件夹
apache-nutch-1.7\build
apache-nutch-1.7\runtime


build\apache-nutch-1.7.jar
build\apache-nutch-1.7.job
apache-nutch-1.7\runtime
复制到apache-nutch-1.7-bin.tar解压出来的文件夹。

nutch-1.7 编译

运行的命令:
单机:runtime/local/bin/nutch crawl urls -dir crawl -depth 2 -threads 3 -topN 100
集群: runtime/deploy/bin/nutch crawl urls -dir crawl -depth 2 -threads 3 -topN 100

异常:
依然会Job failed!

解决方案:
修改 \apache-nutch-1.7\runtime\local\conf\nutch-default.xml
apache-nutch-1.7\runtime\local\plugins
nutch-1.7 编译
类似之前1.2版本的 job failed ,只是这次修改的是local下的单机版专用的conf文件

存储位置:
http://10.0.0.75/newSvn/Search/CrawlerEngine/Platform/Distribute/nutch/Codes/branches/apache-nutch-1.7.rar

 

相关文章:

  • 2022-01-30
  • 2022-12-23
  • 2021-06-24
  • 2022-12-23
  • 2021-07-10
  • 2021-12-26
  • 2021-09-13
猜你喜欢
  • 2022-03-09
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-07-14
  • 2022-12-23
相关资源
相似解决方案