【问题标题】:Import CSV with HTML values into Solr将带有 HTML 值的 CSV 导入 Solr
【发布时间】:2016-02-24 03:52:03
【问题描述】:

我有一个 CSV 文件要导入到 Solr。它有 HTMLText 列,其中包含带有 HTML 标记的英文文本。

我应该如何写我的schema.xml 才能正确导入此列?我正在使用示例模式 XML,在其中我看到了通用文本字段类型和英语字段类型,但我没有看到 HTML 的字段类型。

我知道post 命令允许你发布整个 HTML 文档,所以大概有一个字段解析器来处理这个,但我不知道它是什么。

Solr 中是否有内置的 HTML 解析器类型,或者我应该从我的HTMLText 列中去除 HTML 标记?

【问题讨论】:

    标签: html solr schema


    【解决方案1】:

    您可以将 HTMLStripCharFilterFactory 应用于字段,这将在任何标记化发生之前剥离任何 HTML。

    它会丢弃 cmets 和属性,所以它是否完全适合取决于您期望的最终结果。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-08-14
      相关资源
      最近更新 更多