【问题标题】:I'm following the Nutch tutorial, and getting a "No URLs to fetch" error我正在关注 Nutch 教程,并收到“没有要获取的 URL”错误
【发布时间】:2012-06-21 16:59:32
【问题描述】:

按照此处的 Apache Nutch 教程进行操作:

如教程中所述,我已将 regex-urlfilter.txt 的最后一行设置为:

+^http://([a-z0-9]*\.)*nutch.apache.org/

我的 nutch-site.xml 文件只包含这些行

<property>
 <name>http.agent.name</name>
 <value>My Nutch Spider</value>
</property>

而我的 seed.txt 文件是:

http://nutch.apache.org/

但是,当我用爬行时

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

我收到“没有要获取的 URL”错误。有人知道为什么吗?

【问题讨论】:

    标签: solr lucene nutch


    【解决方案1】:

    配置对我来说看起来不错。您已经在运行时/本地文件夹中进行了这些更改,对吗? seed.txt 将位于 NUTCH_HOME/runtime/local/urls 文件夹中,并且 regex-urlfilter.txt 和 nutch-site.xml 将在 NUTCH_HOME/runtime/local/conf 文件夹中

    NUTCH_HOME为安装目录

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-10-17
      • 1970-01-01
      • 2011-02-18
      • 1970-01-01
      • 1970-01-01
      • 2019-02-05
      • 2021-07-27
      相关资源
      最近更新 更多