【发布时间】:2014-11-02 19:38:50
【问题描述】:
我使用 SOLR 命中突出显示功能来设置文档中的突出显示匹配查询。
问题是其中一个字段包含有效的 HTML,但返回的高亮片段不是有效的 HTML,这就是渲染后整个页面布局被破坏的原因。
例如查询field:lucene给我这个文件:
<p><a href="/some/link">Here is the discussion, what the difference between SOLR, Elasticsearch and Lucene</a></p>
高亮片段是Elasticsearch and <em>Lucene</em></a></p>。
我尝试将片段大小设置为 0(返回整个字段内容)的选项之一,但它可能非常大,结果页面只需要几个 sn-ps。
另一个选项是删除所有 HTML 标记并以纯文本显示 sn-p,但我需要 <em> 标记来突出显示。此外,一些标签可能会在片段中被破坏,例如 </p,这意味着我们不能为此目的使用 html 解析器。
这似乎是搜索中的一个常见问题,是否有一些最先进的方法来处理它?
【问题讨论】: