【问题标题】:Can Solr index/search static files?Solr 可以索引/搜索静态文件吗?
【发布时间】:2012-01-25 08:02:29
【问题描述】:

我一直在阅读this,但我只是想知道,Solr 是否有能力搜索静态文件(即在内容管理系统或数据库之外)?

我的一些文件只是直接的 html...或带有 html“块”的服务器端代码...

【问题讨论】:

  • 您的意思是上传 PDF、HTML、文档等富文本文档?这个wiki.apache.org/solr/ExtractingRequestHandler
  • 是的,有些是 PDF……但我也有一些 .cfm 文件,其中包含 HTML 块……
  • 索引 ColdFusion 标记?先生,您需要解释一下! Solr 将以相同的方式完全相同索引“he is a self-centered jackass”和“he=self::center(++jackass)”:从标点符号中提取单词(标记化),删除停用词,然后找到每个单词的词根(词干)并使其可用于查询。你想要像 Nullege 这样的项目吗?还是管理代码仓库? TortoiseHG,一个多变的 GUI 对此很有帮助。
  • 哈哈我不是先生,而且我没有建立这个页面......只是继承了它。不需要代码仓库,只需要某种方法来索引页面中包含一些包含的内容。

标签: search solr indexing


【解决方案1】:

有 ExternalFileField 字段类型。但它的用途看起来有限。

http://lucene.apache.org/solr/api/org/apache/solr/schema/ExternalFileField.html

【讨论】:

    【解决方案2】:

    SolR 可以索引任何文本输入。重要的是它索引 text。因此,如果您的静态文件不是文本文件,您可能需要先通过Tika 之类的工具运行它们。那么 SolR 对提取的文本数据进行索引应该没有问题。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-10-07
      • 2011-12-20
      • 2015-01-23
      • 2020-04-21
      • 2011-03-21
      • 1970-01-01
      相关资源
      最近更新 更多