【问题标题】:does lucene standardanalyzer remove stopwords and have stemming function?lucene standardanalyzer 会删除停用词并具有词干提取功能吗?
【发布时间】:2012-03-18 00:45:14
【问题描述】:

我用 indexWriter 测试了标准分析器,发现它会自动删除停用词,但是,我没有添加停用词列表,因为我使用了以下代码

StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_35); 
        IndexWriterConfig config =new IndexWriterConfig(Version.LUCENE_35, analyzer);

默认停用词列表在哪里? 还有,这个分析器会自动词干吗??

【问题讨论】:

    标签: java search lucene


    【解决方案1】:

    根据API docs,存在一组默认停用词(取自英语),存储在StandardAnalyzer.STOP_WORDS_SET 中。如果您使用构造函数 public StandardAnalyzer(Version matchVersion) 创建分析器,则使用它,这正是您所做的。该集合与StopAnalyzer.ENGLISH_STOP_WORDS_SET 完全相同。您可以使用其他构造函数之一向分析器传递另一组(可能是空的)停用词。

    StandardAnalyzer 不是词干。如果您需要词干,例如使用SnowballAnalyzer

    【讨论】:

      猜你喜欢
      • 2021-05-02
      • 2010-12-12
      • 2017-04-04
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多