【问题标题】:sql server 2005 full text index query to help find noise words in contentsql server 2005 全文索引查询,帮助查找内容中的干扰词
【发布时间】:2010-03-22 12:48:37
【问题描述】:

有没有办法查询全文索引来帮助确定额外的干扰词?我想添加一些自定义干扰词,并想知道是否有一种方法可以分析索引以帮助确定建议。

【问题讨论】:

    标签: sql-server-2005 full-text-search full-text-indexing


    【解决方案1】:

    就这么简单

    http://arcanecode.com/2008/05/29/creating-and-customizing-noise-words-in-sql-server-2005-full-text-search/

    解释的地方(如何做)。但是,想出合适的方法很难。

    【讨论】:

    • 我看到这篇文章展示了如何编辑干扰词文件,这很好,但我想知道任何其他使索引膨胀的术语,特定于索引内容。
    【解决方案2】:

    我决定研究 lucene.net,因为我对 sql server 全文索引中的相关性计算不满意。

    我设法弄清楚如何快速索引所有内容,然后使用 Luke 查找干扰词。我现在已经根据这个分析编辑了 sql server 噪声文件。现在我有一个搜索解决方案,使用 sql server 全文索引可以很好地工作,但我计划将来转移到 lucene.net。

    以 sql server 全文索引为基础,我开发了一种以领域为中心的方法,使用我理解的工具查找相关内容。经过一些认真的思考和测试,我使用了许多其他措施来确定搜索结果的相关性,而不是通过分析文本内容的词频和词距来确定搜索结果的相关性。 SQL Server 全文索引为我提供了一个很好的开端,现在我有了一个可以使用 lucene 表达的策略,效果很好。

    如果要了解 lucene 并制定搜索策略,我会花费更长的时间。如果有人还在阅读这篇文章,请使用全文索引来测试您的想法,然后在您知道适用于您的域的策略后转移到 lucene。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2010-10-02
      • 2011-10-15
      • 2010-11-18
      • 1970-01-01
      • 1970-01-01
      • 2014-07-22
      • 2016-08-10
      • 1970-01-01
      相关资源
      最近更新 更多