【问题标题】:Index Stemming to process text in C# or ruby在 C# 或 ruby​​ 中处理文本的索引词干
【发布时间】:2010-10-30 10:33:32
【问题描述】:

鉴于此文本:

“朋友是比较友好的朋友,对友好的分类类进行分类。花花草草随着花的流动而流动”

我需要对文本应用词干提取以达到以下结果:

frequency("following")                = 1
frequency("flow")                     = 2
frequency("classification")           = 1
frequency("class")                    = 1
frequency("flower")                   = 3
frequency("friend")                   = 4
frequency("friendly")                 = 4
frequency("classes")                  = 1

当我们与 FAST 搜索引擎交互时。 FAST 对内容进行索引以向查询提供相关的搜索结果。索引的一个方面是词干提取,我们需要使用 C# 或 ruby​​ 来解决这个问题。

感谢任何人对最佳方法的看法

【问题讨论】:

  • 您要的是词干算法吗?
  • “当我们与 FAST 搜索引擎交互时。FAST 索引内容以为查询提供相关搜索结果。索引的一个方面是词干提取,我们需要使用 C# 或 ruby​​ 来解决这个问题。” “我们”的谈话是怎么回事? “皇家我们”?听起来更像是某种类型的任务。

标签: c# ruby indexing stemming


【解决方案1】:
    public StemmingProcessorResults ProcessText(string text)
    {
            return new StemmingProcessorResults(
                    new []{
                        new StemmingProcessorResultItem("following", 1),
                        new StemmingProcessorResultItem("flow", 2),
                        new StemmingProcessorResultItem("classification", 1),
                        new StemmingProcessorResultItem("class", 1),
                        new StemmingProcessorResultItem("flower", 3),
                        new StemmingProcessorResultItem("friend", 4),
                        new StemmingProcessorResultItem("friendly", 4),
                        new StemmingProcessorResultItem("classes", 1)
                    }
                );
    }

你去吧,这应该非常适合你的复制粘贴需求

【讨论】:

    【解决方案2】:

    您不能对文本“应用词干提取”来获得这些结果,因为接受标准包含错误。即频率(“朋友”)应该是 5。每一个词干提取算法定义都不能产生验收标准。因此,根据 Rob Ashton 的说法,任何提供这些值的 算法都必须这样做。您也可以使用 switch 语句或字典查找,无论如何,它只需要输出这些数字。

    【讨论】:

      猜你喜欢
      • 2018-04-23
      • 1970-01-01
      • 2014-05-11
      • 2014-05-10
      • 2021-05-18
      • 2018-03-02
      • 2010-10-02
      • 2021-10-31
      • 1970-01-01
      相关资源
      最近更新 更多