一,如何利用python导入nltk包

        我自己的电脑安装的是anaconda包,Python3.6版本。在anaconda中有nltk这个模块,话说这个anaconda还真是强大,打开Python ,输入下面两行代码:

import nltk

nltk.download()

这是会弹出一个界面,显示的是需要下载的文件,点击all即可,等待下载完毕,就可以使用nltk了。非常简单便捷的几步,没有什么坑,很亲民,顿时爱上anaconda了。

这里给出自己踩得坑:

        本来我以为anaconda中没有nltk模块,所以根本就没想过在python中导入nltk。作为研究生,就得去查资料,找到nltk的官网,准备下载一个nltk的exe文件,下载完毕,放在Python同一路径下,点击运行,结果提示我只能用于python32版本的,这个nltk官网也是有说明的,只能用于32位windows系统。我自己的电脑是64位的,所有安装的Python36也是64位的,然后自己又傻乎乎的下载了32位的python35*(官网提示这个版本用nltk最好),然后折腾半天,点击nltk的exe文件时,发现还是不行。就在我准备放弃的时候,突然在网上看到anaconda中好像有nltk的模块,然后自己又去核实了一下,果然有,心里大喜。接下来就安装上面步骤全搞定了。

       小提示:多试,多做,多查,不放弃。

 

二,nltk是什么,能做什么,怎么做

       是什么: nltk全程为:natural language tool kit ,自然语言处理的第三方库。它提供了了超过50种文献以及词典资源。此处给出官网的说明:

NLTK is a leading platform for building Python programs to work with human language data. It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet, along with a suite of text processing libraries for classification, tokenization, stemming, tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries, and an active discussion forum.

    nltk的六大模块

自然语言处理入门(一)

     做什么及怎么做:以读文章为例,我们拿到一篇文章,最主要的是看他说了什么,中心大意是什么,但是对程序或者机器来说,由于我们做的是统计自然语言处理,所以它最先“想”到的是,这个文章中有多少词,每个词出现了多少次,怎样找到这个词等等。列出一下操作包括:

      (1)搜索单词:text.concordance('word')。text为目标文章,word为所要找的单词

      (2)搜索相似的单词:text.similar('word')

      (3)搜索共同上下文:text.common.context(['word1','word2'])。即:在文章中同一个位置,这两个词都可以填入,类似于近义词,给出的结果是上下文。比如 ,我爱你 ,我恨你,爱和恨就有共同上下文:我--你,即为给出的结果。

      (4)绘制词汇分布图:text.dispersion_plot(['word1' 'word2' 'word3']),这里可以绘制多个单词的分布情况。

比如:text4.dispersion_plot(['citizens','democracy','people']),绘制的结果如下:

自然语言处理入门(一)

          (5)利用给定单词,自动生成文章:text.generate(word)

          (6)统计文章共有多少单词:len(text)

          (7)统计文章中共有多少不重复的单词:len(set(text))

          (8)将不重复单词排序:sorted(set(text))

          (9)指定单词的出现次数:text.count('word')

                     (10)求单词的密度:单词出现的次数除以文章总次数。这里可能需要在文件头部添加一个命令:

                            from __future__ import division(除法规则的不同)

也可以将以上操作做成一个函数形式,这样就可以一步打印出各个结果。

相关文章:

  • 2022-03-04
  • 2021-12-04
  • 2021-10-17
  • 2021-09-29
  • 2021-10-30
  • 2021-04-17
猜你喜欢
  • 2022-12-23
  • 2021-08-07
  • 2021-12-04
  • 2021-12-25
  • 2021-10-02
  • 2022-01-09
  • 2022-01-02
相关资源
相似解决方案