nlp学习--点滴 - 爱码网

很久没写过博客了，这段时间干了些啥呢？针对语音分类做了一个简单的demo，学了一些nlp的基本知识，比如分词、语法分析、命名实体识别等。貌似学习的东西挺多的，结果发现没有记录还是没记住啥，现在开始记录一下下。

分词，我使用的是jieba分词和hanlp分词，在命名实体识别的时候又把Stanford分词看了一下。

分词的原理是什么呢？分词一开始是“查字典”，即把句子从左到右扫描一遍，遇到字典里有的词就标记出来，遇到不认识的就标记为单字词，比如中国官员到美国考察。遇到中，先切割一下，后面再遇到国，发现是一个词，则分隔符放在中国的后面，再后面没有和中国组词的字了，则分隔符确定。但是这种方法并不能处理二义性的分割，比如发展中国家、北京大学生、上海大学城书店等，所以后面又出来了统计语言模型方法。

nlp学习--点滴

（来自吴军--数学之美以及两难句子：此地安能居住，其人好不悲伤）

文本分类，谁能想到竟然是和余弦定理以及奇异值分解有关系呢？

文本分类的时候，可以先使用TF-IDF将文本变为一个固定长度的向量，然后使用余弦定理计算相似度（百万级别的分类）

如果文本数量特别大，则可以将之写为一个M*N的矩阵（M为文本数量，N为词典大小），先使用SVD得到一个粗分类，然后使用余弦定理进行迭代得到较好的分类结果。