很久没写过博客了,这段时间干了些啥呢?针对语音分类做了一个简单的demo,学了一些nlp的基本知识,比如分词、语法分析、命名实体识别等。貌似学习的东西挺多的,结果发现没有记录还是没记住啥,现在开始记录一下下。

    分词,我使用的是jieba分词和hanlp分词,在命名实体识别的时候又把Stanford分词看了一下。

    分词的原理是什么呢?分词一开始是“查字典”,即把句子从左到右扫描一遍,遇到字典里有的词就标记出来,遇到不认识的就标记为单字词,比如中国官员到美国考察。遇到中,先切割一下,后面再遇到国,发现是一个词,则分隔符放在中国的后面,再后面没有和中国组词的字了,则分隔符确定。但是这种方法并不能处理二义性的分割,比如发展中国家、北京大学生、上海大学城书店等,所以后面又出来了统计语言模型方法。

nlp学习--点滴nlp学习--点滴

(来自吴军--数学之美以及两难句子:此地安能居住,其人好不悲伤)

    文本分类,谁能想到竟然是和余弦定理以及奇异值分解有关系呢?

    文本分类的时候,可以先使用TF-IDF将文本变为一个固定长度的向量,然后使用余弦定理计算相似度(百万级别的分类)

如果文本数量特别大,则可以将之写为一个M*N的矩阵(M为文本数量,N为词典大小),先使用SVD得到一个粗分类,然后使用余弦定理进行迭代得到较好的分类结果。

相关文章: