新词发现与词的切分差不多是同一回事
1.信息熵
最常用
http://spaces.ac.cn/archives/3491/
2.基于切分的新词发现
相比1计算量要小,可能参数选取需要根据文本数据量来调整
http://spaces.ac.cn/archives/3913/
3.遗忘算法
可能是计算量最小的算法了,效果有待验证
特点:
无监督学习
O(N)级时间复杂度
训练、执行为同一过程,可无缝处理流式数据
未登录词、新词、登录词没有区别
领域自适应:领域变化时,词条、词频自适应的随之调整
算法中仅使用到频数这一语言的共性特征,无需对任何字符做特别处理,因此原理上跨语种。
主要内容就是下面这个公式
http://www.52nlp.cn/forgetnlp1
更新中~~~