在 SOLR 中剥离 HTML 以进行存储，而不是索引

【问题标题】：Stripping HTML in SOLR for storage, not indexing在 SOLR 中剥离 HTML 以进行存储，而不是索引
【发布时间】：2011-01-22 12:54:17
【问题描述】：

在 SOLR 中索引数据时，我已设法从内容中去除 HTML。

但是在简单地存储数据时是否可以从数据中去除 HTML？

这是我的领域：

<field name="Content" type="textNoHTML" indexed="true" stored="true"/>

并且，字段类型“textNoHTML”实现了 solr.HTMLStripCharFilterFactory：

<charFilter class="solr.HTMLStripCharFilterFactory" />

正如我所说，这对于索引很有效，但是是否可以应用类似的过滤器进行存储？

干杯！

【问题讨论】：

【解决方案1】：

如果您使用 DataImportHandler，则可以使用 HTMLStripTransformer。

否则，您必须自己实现此客户端。如果您的客户端是 .NET，您可以使用 HtmlAgilityPack。

【讨论】：

+1 我明白了。所以，如果我使用 DataImportHandler 从数据存储中导入数据，我可以使用该转换器......但如果我通过 XML 命令添加，我不能？为什么？无论如何，很酷，我会检查敏捷包。干杯！
AFAIK 存储字段始终逐字存储。 DIH 充当客户端，因此它可以拥有转换器。