【发布时间】:2015-03-30 23:22:41
【问题描述】:
我有两个非结构化文本输入列表,我想找到区分 listA 和 listB 的单词。
例如,如果listA 是“哈利波特”的文本,listB 是“安德的游戏”的文本,则 listA 的区别元素将是 [wand, magic, wizard, . . .],listB 的区别元素将是[ender, buggers, battle, . . .]
我对 python-nltk 模块进行了一些尝试,并且能够轻松找到每个列表中最常用的单词,但这并不是我想要的。
【问题讨论】:
-
listA 是如何知道魔杖、魔法和巫师的?
-
我猜你会想要将每本书中的频率计数与某些标准语料库中的频率计数进行比较。如果词在语料库中出现的频率较低,而在书籍中出现的频率相对较高,则它们是有区别的。
-
topic-model,试试radimrehurek.com/gensim