用 nutch 爬行时出错答案

【问题标题】：error with crawling with nutch用 nutch 爬行时出错
【发布时间】：2013-04-23 11:00:29
【问题描述】：

我试图用 nutch 抓取网站并收到此错误：

java.net.MalformedURLException: no protocol:
    Exception in thread "main" java.io.IOException: Job failed!
            at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1265)
            at org.apache.nutch.crawl.Injector.inject(Injector.java:296)
            at org.apache.nutch.crawl.Crawl.run(Crawl.java:127)
            at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
            at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

【问题讨论】：

标签： web-crawler nutch

【解决方案1】：

检查您的种子列表。运行注入器作业时发生此错误。可能是由于您的种子列表。您的种子网址应如下所示：http://www.example.com。您必须将协议添加为“http//”。

【讨论】：

感谢您的回答，这是工作，但现在我收到此错误：线程“主”java.io.IOException 中的异常：作业失败！在 org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1265) 在 org.apache.nutch.crawl.Injector.inject(Injector.java:296) 在 org.apache.nutch.crawl.Crawl.run (Crawl.java:127) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.nutch.crawl.Crawl.main(Crawl.java:55) 现在问题出在哪里?!
你使用什么来存储（hbase、cassandra 或 mysql）？检查您的配置。（作为 hbase-site.xml ...）
检查 Hadoop 日志。您可以更详细地看到问题所在。
使用mysql，你是对的，我看到了日志，错误是因为目录不存在，那就解决了。非常感谢