【发布时间】:2014-08-21 18:05:09
【问题描述】:
使用 Apache Nutch 2.2.1 抓取网页后,该网页的内容会推送到 Solr。 Solr 将整个网页的内容存储在“内容”字段中,因此该字段中的数据通常非常庞大。所以这是我的担忧:
我应该索引 Solr 中的“内容”字段吗?索引如此大的字段将增加索引大小。在 Solr 的 schema.xml 文件中,我发现了以下建议:
NOTE: This field is not indexed by default, since it is also copied to "text"
using copyField below. This is to save space. Use this field for returning and
highlighting document content. Use the "text" field to search the content.
<field name="content" type="text_general" indexed="false" stored="true" multiValued="true"/>
但是,如果我让该字段未编入索引,是否会显着增加搜索响应时间?
如果有任何信息可以帮助我了解不对这个大型字段编制索引的好处或编制索引的好处,我将不胜感激。
【问题讨论】: