【问题标题】:error with crawling with nutch用 nutch 爬行时出错
【发布时间】:2013-04-23 11:00:29
【问题描述】:

我试图用 nutch 抓取网站并收到此错误:

java.net.MalformedURLException: no protocol:
    Exception in thread "main" java.io.IOException: Job failed!
            at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1265)
            at org.apache.nutch.crawl.Injector.inject(Injector.java:296)
            at org.apache.nutch.crawl.Crawl.run(Crawl.java:127)
            at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
            at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

【问题讨论】:

    标签: web-crawler nutch


    【解决方案1】:

    检查您的种子列表。运行注入器作业时发生此错误。可能是由于您的种子列表。您的种子网址应如下所示:http://www.example.com。您必须将协议添加为“http//”。

    【讨论】:

    • 感谢您的回答,这是工作,但现在我收到此错误:线程“主”java.io.IOException 中的异常:作业失败!在 org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1265) 在 org.apache.nutch.crawl.Injector.inject(Injector.java:296) 在 org.apache.nutch.crawl.Crawl.run (Crawl.java:127) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.nutch.crawl.Crawl.main(Crawl.java:55) 现在问题出在哪里?!
    • 你使用什么来存储(hbase、cassandra 或 mysql)?检查您的配置。 (作为 hbase-site.xml ...)
    • 检查 Hadoop 日志。您可以更详细地看到问题所在。
    • 使用mysql,你是对的,我看到了日志,错误是因为目录不存在,那就解决了。非常感谢
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-09-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多