【问题标题】:Solr/Carrot2 IntegrationSolr/Carrot2 集成
【发布时间】:2013-12-16 11:59:05
【问题描述】:

SOlr/Carrot2 集成

我有多个文本文件,每个我创建 XML 以在 Solr 上索引文档,如下所示

<add>
  <doc>
    <person>data </person>
    <organization>data here </organization>
    <content>Some spanish text here</content >
  </doc>
<add>

索引中使用的架构

<field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" />    
<field name="person" type="string"  indexed="true" stored="true" required="true" multiValued="true" />
<field name="orgnization" type="string" indexed="true" stored="true" required="true" multiValued="true"   />
<field name="content" type="text_es" indexed="true" stored="true" multiValued="true"/>  
<field name="location" type="string"  indexed="true" stored="true" required="true" multiValued="true" />

现在我正在尝试集成胡萝卜2 聚类,为此我关注了此链接 http://carrot2.github.io/solr-integration-strategies/carrot2-3.8.0/index.html

我的问题是集群查询的结果,我只得到一个集群,如下所示

<arr name="clusters">
  <lst>
<arr name="labels">
  <str>Other Topics</str>
    </arr>
    <double name="score">0.0</double>
    <bool name="other-topics">true</bool>
    <arr name="docs">
      <str>#.txt</str>
      <str>abci-britanicos-pizzerias-201312120250.txt</str>
      <str>abci-arqueologos-israelis-descubren-primer-201312111303.txt</str>
      <str>abci-autoridad-fiscal-pensiones-201312111956.txt</str>
      <str>abci-buenas-razones-para-cambiar-201312110933.txt</str>
      <str>abci-audio-asamblea-aserpinto-201312112139.txt</str>
      <
    </arr>
  </lst>
  </arr>

我应该得到更多的集群我的语料库包含 60 个文本文档

【问题讨论】:

    标签: solr machine-learning nlp carrot2


    【解决方案1】:

    为了使搜索结果集群在 Solr 中工作,必须存储您为集群传递的标题和内容字段。 Solr 模式中的声明可能如下所示:

    <field name="content" type="text" indexed="true" stored="true" />
    

    【讨论】:

    • 集群工作台集群正在工作,所以我猜我的 solr 架构没有任何问题,我猜集群的 solr 配置可能有问题
    • 使用 Workbench 时,您仍然需要将内容保存在存储字段中。这样做的原因是聚类算法需要原始文本,以便它可以分析单词序列。如果您的字段已编入索引但未存储,则此类信息不可用。
    • 我的内容字段已被索引并存储有问题的检查架构
    • 你能save your results to XML in Workbench 发邮件给我调试吗?
    • stanislaw.osinski 你的邮箱??
    【解决方案2】:

    除了 Stanislaw 关于存储字段的说明之外,请提供您用于集群的查询,理想情况下,提供用于索引数据的完整架构。

    如果您的索引中只有 60 个文档,并且查询与一小部分文档匹配,那么将没有任何可聚类的内容。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-09-05
      • 1970-01-01
      • 2012-08-14
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多