【发布时间】:2019-01-13 17:03:57
【问题描述】:
我有一个名为SubIMDB 的大型英语语料库,我想列出所有单词及其频率。这意味着它们在整个语料库中出现了多少。这个频率列表应该有一些特点:
- boy 和 boy 之类的词或 get 和 getting 等其他语法特征,相同的词或引理,如果有 3 个男孩和 2 个男孩,则应将它们列为 Boy 5。但是,不适用于 Go 和去有不规则的形状(或脚和脚)
- 我想将此频率列表用作一种字典,因此每当我在程序的另一部分中看到一个单词时,我想检查它在此列表中的频率。因此,最好无需查找所有内容即可进行搜索。
我的问题是:
- 对于第一个问题,我该怎么办?词形还原?或词干?或者我怎样才能得到它?
- 其次,我应该将它设置为什么样的变量类型?比如字典或列表之类的?
- 是否最好将其保存在 csv 中?
- 是否有任何为 python 准备好的工具包来完成这一切?
非常感谢。
【问题讨论】:
-
问“我从哪里开始?”的问题通常过于宽泛,不适合本网站。人们有自己解决问题的方法,因此不可能有正确的答案。仔细阅读 Where to Start 和 edit 您的帖子。
-
寻求图书馆推荐是离题的,在一个问题中提出多个和/或不具体的问题也是不受欢迎的。你尝试了什么,你在哪里研究过,你用来解决这个问题的代码有什么问题?谷歌搜索
python lemma stemmer自然会导致 NLTK 和这个网站上的重复... f.e.这个how-do-i-do-word-stemming-or-lemmatization -
@PatrickArtner 好吧,我知道从哪里开始,我只是有这些问题,我想知道其他人对此的看法。我对 lemmetizing 或阻止它们有点困惑。在他们看来,制作该频率列表的最佳方式是什么。你觉得我应该在哪里问这个? stackexchange 中的语言学?
-
@PatrickArtner 我知道 NLTK 引理和词干分析器,我能够与他们合作。考虑到我只需要摆脱语法部分,我问哪个更好。而且我也很好地搜索了 Github 和整个网络,但找不到一个好的 python 工具包自动生成 .txt 文件的频率列表。我想问问这里的人是否知道。
标签: python python-3.x nlp corpus word-frequency