【发布时间】:2014-05-16 21:03:43
【问题描述】:
我刚开始我的第一个 NLTK 项目,对正确的设置感到困惑。我需要几个资源,比如 Punkt Tokenizer 和 maxent pos tagger。我自己使用 GUI nltk.download() 下载了它们。对于我的合作者,我当然希望这些东西能够自动下载。我在文档中没有找到任何惯用的代码。
我是否应该将nltk.data.load('tokenizers/punkt/english.pickle') 之类的东西放入代码中?每次运行脚本时都会下载资源吗?我是否要向用户(即我的共同开发者)提供反馈,说明正在下载的内容以及为什么需要这么长时间?必须有设备可以完成这项工作,对吧? :)
//编辑为了解释我的问题:
我如何测试运行我的代码的机器上是否已经安装了一个 nltk 资源(如 Punkt Tokenizer),如果没有安装它?
【问题讨论】:
-
我无法确定您的要求。演示您当前方法的简洁、可测试的代码示例将非常有帮助。
-
让我重新构建问题:如何测试运行我的代码的机器上是否已经安装了 nltk 资源(如 Punkt Tokenizer),如果没有安装它?
-
编辑您的问题以匹配您的评论。将简短的问题放在 cmets 中可能会被忽视