Solr 索引 HTML 实体答案

【问题标题】：Solr indexing HTML entitiesSolr 索引 HTML 实体
【发布时间】：2011-09-06 10:13:02
【问题描述】：

我正在索引 Solr 的文档，这些文档是从网上抓取的。文档包含 HTML 实体（例如 &pound; 或 &#163;）。大多数文件包含中欧字符。此任务是否有任何字符过滤器？我知道 solr.MappingCharFilterFactory，但使用它意味着我必须自己定义映射。我会对社区维护的共享解决方案更满意。感谢您的帮助！

【问题讨论】：

fifigyuri，你问“这个任务有 charfilter 吗？”让我直截了当地说：您想在索引文档之前将重音字符转换为非重音字符（就像将“állat”转换为“allat”）？而且你不想组装和维护一个字符映射的txt文件？
@bpgergo，我已经处理了 áóüőťďľšč... 字符，因为这些 MappingCharFilter 很好。我想要 HTMLentities 的映射。这意味着 ü或 ü将被翻译为ü。但可能最简单的方法就是扩展我的映射。想知道 Solr 中的 Web 特定文本/字符是否已经解决了这些案例。如果您知道任何这样的解决方案，现成的，请分享。谢谢！
我明白了。不幸的是，我不知道这种现成的映射。

标签： indexing solr html-entities

【解决方案1】：

有solr.HTMLStripCharFilterFactory，它转换HTML实体，但它也剥离HTML标签。

【讨论】：