【问题标题】:Solr indexing HTML entitiesSolr 索引 HTML 实体
【发布时间】:2011-09-06 10:13:02
【问题描述】:

我正在索引 Solr 的文档,这些文档是从网上抓取的。文档包含 HTML 实体(例如 ££)。大多数文件包含中欧字符。此任务是否有任何字符过滤器?我知道 solr.MappingCharFilterFactory,但使用它意味着我必须自己定义映射。我会对社区维护的共享解决方案更满意。感谢您的帮助!

【问题讨论】:

  • fifigyuri,你问“这个任务有 charfilter 吗?”让我直截了当地说:您想在索引文档之前将重音字符转换为非重音字符(就像将“állat”转换为“allat”)?而且你不想组装和维护一个字符映射的txt文件?
  • @bpgergo,我已经处理了 áóüőťďľšč... 字符,因为这些 MappingCharFilter 很好。我想要 HTMLentities 的映射。这意味着 ü或 ü将被翻译为ü。但可能最简单的方法就是扩展我的映射。想知道 Solr 中的 Web 特定文本/字符是否已经解决了这些案例。如果您知道任何这样的解决方案,现成的,请分享。谢谢!
  • 我明白了。不幸的是,我不知道这种现成的映射。

标签: indexing solr html-entities


【解决方案1】:

solr.HTMLStripCharFilterFactory,它转换HTML实体,但它也剥离HTML标签。

【讨论】:

    猜你喜欢
    • 2015-10-06
    • 1970-01-01
    • 2011-10-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-09-09
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多