词典或者词典资源是一个词和/或短语及其相关信息的集合,例如:词性和词意定义等相关信息。词典资源附属于文本,而且通常在文本的基础上创建和丰富。下面列举几种nltk中的词典资源。
1. 词汇列表语料库
nltk中包括了一些仅仅包含词汇列表的语料库。词汇语料库是UNIX中的/usr/dict/words文件,被一些拼写检查程序所使用。我们可以用它来寻找文本语料中不常见的或拼写错误的词汇。
1)过滤词汇
1 >>> def unusual_words(text): 2 ... text_vocab=set(w.lower() for w in text if w.isalpha()) 3 ... english_vocab=set(w.lower() for w in nltk.corpus.words.words()) 4 ... unusual=text_vocab.difference(english_vocab) 5 ... return sorted(unusual) 6 ... 7 >>> dif1=unusual_words(nltk.corpus.gutenberg.words('austen-sense.txt')) 8 >>> dif1[:20] 9 ['abbeyland', 'abhorred', 'abilities', 'abounded', 'abridgement', 'abused', 'abu 10 ses', 'accents', 'accepting', 'accommodations', 'accompanied', 'accounted', 'acc 11 ounts', 'accustomary', 'aches', 'acknowledging', 'acknowledgment', 'acknowledgme 12 nts', 'acquaintances', 'acquiesced'] 13 >>> dif2=unusual_words(nltk.corpus.nps_chat.words()) 14 >>> dif2[:20] 15 ['aaaaaaaaaaaaaaaaa', 'aaahhhh', 'abortions', 'abou', 'abourted', 'abs', 'ack', 16 'acros', 'actualy', 'adams', 'adds', 'adduser', 'adjusts', 'adoted', 'adreniline 17 ', 'ads', 'adults', 'afe', 'affairs', 'affari'] 18 >>>