所谓Stemming,可以称为词根化,这里有个overview。在英语这样的拉丁语系里面,单词有多种变形。比如加上-ed、-ing、-ly等等。在分词的时候,如果能够把这些变形单词的词根找出了,对搜索结果是很有帮助的。Stemming算法有很多了,三大主流算法是Porter stemming algorithmLovins stemming algorithmLancaster (Paice/Husk) stemming algorithm,还有一些改进的或其它的算法。

相关文章:

  • 2021-09-25
  • 2021-10-25
  • 2021-08-10
  • 2022-12-23
  • 2022-02-08
  • 2021-06-19
  • 2021-08-30
猜你喜欢
  • 2021-08-14
  • 2021-05-27
  • 2021-10-10
  • 2022-12-23
  • 2022-12-23
  • 2021-08-18
相关资源
相似解决方案