词过滤

对于NLP的应用,我们通常先把停用词出现频率很低的词汇进行过滤;这其实类似于特征选择过程。

去掉停用词

在英文里,比如"the",'in","theirs"这些都可以作为停用词来处理。但是,也要考虑自己的应用场景。

去掉低频词

出现频率特别低的词汇对分析作用不大,所以一般也会去掉。把停用词、出现频率低的词过滤之后,就可以得到一个词句。

词干提取

stemming

  • went,go,going —— go
  • fiy,flies —— fli
  • deny,denied,denying —— deni
  • fast,faster,fastest —— fast

stemming不能保证把单词还原为有效的原型,例如上面的fli和deni,这是stemming的特点。stemming中有一个非常著名的算法叫PorterStemmer。

词的过滤

上图是Porter Stemmer的一个简单思路:
在step 1a中,对于以sses结尾的单词,则改成ss。这相当于写了很多规则,把符合某种规则的后缀改为另一种形式的后缀。

相关文章:

  • 2021-12-22
  • 2021-05-24
  • 2021-11-30
  • 2021-12-02
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2021-10-13
  • 2022-12-23
  • 2021-09-26
  • 2021-10-22
  • 2022-12-23
相关资源
相似解决方案