新词发现与词的切分差不多是同一回事

1.信息熵

最常用

http://spaces.ac.cn/archives/3491/


2.基于切分的新词发现

相比1计算量要小,可能参数选取需要根据文本数据量来调整

http://spaces.ac.cn/archives/3913/


3.遗忘算法

可能是计算量最小的算法了,效果有待验证

特点:

无监督学习
O(N)级时间复杂度
训练、执行为同一过程,可无缝处理流式数据
未登录词、新词、登录词没有区别
领域自适应:领域变化时,词条、词频自适应的随之调整
算法中仅使用到频数这一语言的共性特征,无需对任何字符做特别处理,因此原理上跨语种。

主要内容就是下面这个公式

新词发现方法资料

http://www.52nlp.cn/forgetnlp1


更新中~~~

相关文章: