【发布时间】:2015-03-18 10:37:48
【问题描述】:
我在 solr 中使用术语向量组件来构建标签云。我还在使用 porter-stem factory 在索引和查询时进行词干提取。
问题是词向量在最终输出中显示词干词和词频。 示例:- 如果我搜索“通信”这个词,它会给我“公社”的词频,但我需要 通信。我只需要词干来查询而不是词向量。我怎样才能阻止这种情况?
【问题讨论】:
我在 solr 中使用术语向量组件来构建标签云。我还在使用 porter-stem factory 在索引和查询时进行词干提取。
问题是词向量在最终输出中显示词干词和词频。 示例:- 如果我搜索“通信”这个词,它会给我“公社”的词频,但我需要 通信。我只需要词干来查询而不是词向量。我怎样才能阻止这种情况?
【问题讨论】:
您可以创建一个没有词干提取的copy field 并查询该字段以生成您的标签云。
例如,假设您当前的字段名为my_text,您可能有这样的内容:
首先定义一个新字段:
<field name="my_text_2" type="my_text_type_2" indexed="true" stored="false" termVectors="true"/>
然后在写入时将您的文本复制到其中:
<copyField source="my_text" dest="my_text_2"/>
其中my_text_type_2 是字段类型,您可以在其中设置所需的分析器。它可能是用于 my_text 但没有词干的当前字段类型的副本。
【讨论】: