词典或者词典资源是一个词和/或短语及其相关信息的集合,例如:词性和词意定义等相关信息。词典资源附属于文本,而且通常在文本的基础上创建和丰富。下面列举几种nltk中的词典资源。

1. 词汇列表语料库

nltk中包括了一些仅仅包含词汇列表的语料库。词汇语料库是UNIX中的/usr/dict/words文件,被一些拼写检查程序所使用。我们可以用它来寻找文本语料中不常见的或拼写错误的词汇。

1)过滤词汇

 1 >>> def unusual_words(text):
 2 ...     text_vocab=set(w.lower() for w in text if w.isalpha())
 3 ...     english_vocab=set(w.lower() for w in nltk.corpus.words.words())
 4 ...     unusual=text_vocab.difference(english_vocab)
 5 ...     return sorted(unusual)
 6 ...
 7 >>> dif1=unusual_words(nltk.corpus.gutenberg.words('austen-sense.txt'))
 8 >>> dif1[:20]
 9 ['abbeyland', 'abhorred', 'abilities', 'abounded', 'abridgement', 'abused', 'abu
10 ses', 'accents', 'accepting', 'accommodations', 'accompanied', 'accounted', 'acc
11 ounts', 'accustomary', 'aches', 'acknowledging', 'acknowledgment', 'acknowledgme
12 nts', 'acquaintances', 'acquiesced']
13 >>> dif2=unusual_words(nltk.corpus.nps_chat.words())
14 >>> dif2[:20]
15 ['aaaaaaaaaaaaaaaaa', 'aaahhhh', 'abortions', 'abou', 'abourted', 'abs', 'ack',
16 'acros', 'actualy', 'adams', 'adds', 'adduser', 'adjusts', 'adoted', 'adreniline
17 ', 'ads', 'adults', 'afe', 'affairs', 'affari']
18 >>>
View Code

相关文章: