机器学习必会工具gensim

 1 import jieba
 2 import gensim
 3 from gensim import corpora
 4 from gensim import models
 5 from gensim import similarities
 6 
 7 l1 = ["你的名字是什么" ,"你今年多少岁","你今年几岁了" ,"你有多高你胸多大", "你胸多大"]
 8 a = "你今年多大了"
 9 
10 all_doc_list = []
11 for doc in l1:
12     doc_list = [word for word in jieba.cut(doc)]
13     all_doc_list.append(doc_list)
14 print(all_doc_list)
15 
16 doc_test_list = [word for word in jieba.cut(a)]
17 print(doc_test_list)
18 
19 
20 # 制作语料库
21 dictionary = corpora.Dictionary(all_doc_list)  # 制作词袋
22 # 词袋的理解
23 # 词袋就是将很多很多的词,进行排列形成一个 词(key) 与一个 标志位(value) 的字典
24 # 例如: {\'什么\': 0, \'你\': 1, \'名字\': 2, \'是\': 3, \'的\': 4, \'了\': 5, \'今年\': 6, \'几岁\': 7, \'多\': 8, \'有\': 9, \'胸多大\': 10, \'高\': 11}
25 # 至于它是做什么用的,带着问题往下看
26 
27 print("token2id", dictionary.token2id)
28 print("dictionary", dictionary, type(dictionary))
29 
30 corpus = [dictionary.doc2bow(doc) for doc in all_doc_list]
31 # 语料库:
32 # 这里是将all_doc_list 中的每一个列表中的词语 与 dictionary 中的Key进行匹配
33 # 得到一个匹配后的结果,例如[\'你\', \'今年\', \'几岁\', \'了\']
34 # 就可以得到 [(1, 1), (5, 1), (6, 1), (7, 1)]
35 # 1代表的的是 你 1代表出现一次, 5代表的是 了  1代表出现了一次, 以此类推 6 = 今年 , 7 = 几岁
36 print("corpus", corpus, type(corpus))
37 
38 # 将需要寻找相似度的分词列表 做成 语料库 doc_test_vec
39 doc_test_vec = dictionary.doc2bow(doc_test_list)
40 print("doc_test_vec", doc_test_vec, type(doc_test_vec))
41 
42 # 将corpus语料库(初识语料库) 使用Lsi模型进行训练
43 lsi = models.LsiModel(corpus)
44 # 这里的只是需要学习Lsi模型来了解的,这里不做阐述
45 print("lsi", lsi, type(lsi))
46 # 语料库corpus的训练结果
47 print("lsi[corpus]", lsi[corpus])
48 # 获得语料库doc_test_vec 在 语料库corpus的训练结果 中的 向量表示
49 print("lsi[doc_test_vec]", lsi[doc_test_vec])
50 
51 # 文本相似度
52 # 稀疏矩阵相似度 将 主 语料库corpus的训练结果 作为初始值
53 index = similarities.SparseMatrixSimilarity(lsi[corpus], num_features=len(dictionary.keys()))
54 print("index", index, type(index))
55 
56 # 将 语料库doc_test_vec 在 语料库corpus的训练结果 中的 向量表示 与 语料库corpus的 向量表示 做矩阵相似度计算
57 sim = index[lsi[doc_test_vec]]
58 
59 print("sim", sim, type(sim))
60 
61 # 对下标和相似度结果进行一个排序,拿出相似度最高的结果
62 # cc = sorted(enumerate(sim), key=lambda item: item[1],reverse=True)
63 cc = sorted(enumerate(sim), key=lambda item: -item[1])
64 print(cc)
65 
66 text = l1[cc[0][0]]
67 
68 print(a,text)
可用于机器学习，进行相似度比对，问题库越丰富，机器学习效果越准确