【发布时间】:2012-06-21 16:59:32
【问题描述】:
按照此处的 Apache Nutch 教程进行操作:
如教程中所述,我已将 regex-urlfilter.txt 的最后一行设置为:
+^http://([a-z0-9]*\.)*nutch.apache.org/
我的 nutch-site.xml 文件只包含这些行
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
而我的 seed.txt 文件是:
http://nutch.apache.org/
但是,当我用爬行时
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
我收到“没有要获取的 URL”错误。有人知道为什么吗?
【问题讨论】: