【发布时间】:2013-10-18 03:11:25
【问题描述】:
我是 nutch 和 solr 的新手。 我使用 nutch 来抓取网站,并使用 solr 来索引这些页面。 有没有一种方法可以检索 solr 数据库中的链接内容?
举例
- 如果我有索引http://www.prova.com/prova.html
- 此页面包含文本“这是一个新页面”
- 在solr中,文本页面是否保存在某处?
谢谢
达尼洛
【问题讨论】:
我是 nutch 和 solr 的新手。 我使用 nutch 来抓取网站,并使用 solr 来索引这些页面。 有没有一种方法可以检索 solr 数据库中的链接内容?
举例
谢谢
达尼洛
【问题讨论】:
页面的文本存储在名为“内容”的字段中。请注意,这不是原始页面,而是页面的解析版本。可搜索的内容应该出现在这里,而不是元标记和 javascript 之类的内容。
【讨论】: