【问题标题】:Download all nltk packages in google colaboratory at once一次下载google colaboratory中的所有nltk包
【发布时间】:2018-08-11 15:29:00
【问题描述】:

我想在我的 google colab 代码中使用停用词,当我导入有关 nltk 的内容时没有错误,但是当我在我的代码中使用停用词时,google colab 给出了这个错误:-

Resource 'corpora/stopwords.zip/stopwords/' not found.  Please
use the NLTK Downloader to obtain the resource:  >>>
nltk.download()

但是当我这样做时:-

 import nltk
 nltk.download()

它给了我所有的包列表,所以我必须选择 1 来下载,在终端我可以做“全部”来下载所有的包,但是我如何在 google colab 中做到这一点?我不想每次都添加名称来下载东西。这是 colab 在我执行“nltk.download()”时向我展示的内容:-

NLTK 下载器

d) 下载 l) 列表 u) 更新 c) 配置 h) 帮助 q) 退出

 Downloader> d

 Download which package (l=list; x=cancel)?

有什么方法可以一次将所有 nltk 包下载到我在 google colab 中的项目中?

【问题讨论】:

  • 很可能你不需要所有的包。试试Downloader> popular
  • 是的,我没有,但是寻找每个包然后下载它需要很多时间,而且“流行”不起作用。

标签: python package nltk google-colaboratory


【解决方案1】:

用途:

import nltk

nltk.download('all')

它对我有用。

【讨论】:

  • 这如何比@Bal Krishna Jha 回答更多?
【解决方案2】:

您还有其他几种选择:

all-corpora......... All the corpora
all-nltk............ All packages available on nltk_data gh-pages
                           branch
all................. All packages
book................ Everything used in the NLTK Book
popular............. Popular packages
tests............... Packages for running tests

您可以将它们用作:

import nltk
nltk.download('book')
#or
nltk.download('tests')
#or
nltk.download('all-corpora')# not recommended as it download huge amount of data.

【讨论】:

    【解决方案3】:

    当我遇到同样的问题时,我到达了这个页面。
    我可以在 google colab 中对这段代码使用“流行”。

    import nltk
    nltk.download("popular")
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-10-14
      • 1970-01-01
      • 2019-05-21
      • 2016-10-28
      • 2020-09-25
      • 2021-03-28
      相关资源
      最近更新 更多