【问题标题】:Stripping HTML in SOLR for storage, not indexing在 SOLR 中剥离 HTML 以进行存储,而不是索引
【发布时间】:2011-01-22 12:54:17
【问题描述】:

在 SOLR 中索引数据时,我已设法从内容中去除 HTML。

但是在简单地存储数据时是否可以从数据中去除 HTML?

这是我的领域:

<field name="Content" type="textNoHTML" indexed="true" stored="true"/>

并且,字段类型“textNoHTML”实现了 solr.HTMLStripCharFilterFactory:

<charFilter class="solr.HTMLStripCharFilterFactory" />

正如我所说,这对于索引很有效,但是是否可以应用类似的过滤器进行存储?

干杯!

【问题讨论】:

    标签: indexing solr filtering


    【解决方案1】:

    如果您使用 DataImportHandler,则可以使用 HTMLStripTransformer

    否则,您必须自己实现此客户端。如果您的客户端是 .NET,您可以使用 HtmlAgilityPack

    【讨论】:

    • +1 我明白了。所以,如果我使用 DataImportHandler 从数据存储中导入数据,我可以使用该转换器......但如果我通过 XML 命令添加,我不能?为什么?无论如何,很酷,我会检查敏捷包。干杯!
    • AFAIK 存储字段始终逐字存储。 DIH 充当客户端,因此它可以拥有转换器。
    猜你喜欢
    • 1970-01-01
    • 2014-01-19
    • 1970-01-01
    • 2014-04-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-11-14
    • 1970-01-01
    相关资源
    最近更新 更多