【问题标题】:The length of the vocabulary of Spacy 'en_core_web_sm'Spacy 'en_core_web_sm' 的词汇长度
【发布时间】:2021-10-13 12:25:43
【问题描述】:

我正在使用 macbook 并尝试从 udemy 课程中学习 NLP。我的空间库的长度是 len(doc.vocab)=532 ,但是在视频中相同的长度是 57000 左右。我下载了更大的版本,也没有任何变化。

【问题讨论】:

  • 请注意,通常词汇的大小是一个实现细节,您不应在任何事情上依赖它。
  • 请提供足够的代码,以便其他人更好地理解或重现问题。

标签: nlp spacy


【解决方案1】:

len(doc.vocab) 是缓存词位的数量,因此当您在某些词上使用模型时,它可能会有所不同。

len(doc.vocab.strings) 将字符串映射到哈希值,反之亦然。它可以为您提供不同字符串的数量。对于模型en_core_web_md,例如,这将为您提供 701800。

【讨论】:

  • 课程讲师坚持认为这行代码应该带来更高的价值。 'import spacy nlp = spacy.load('en_core_web_sm') doc = nlp(u"这只敏捷的棕狐跳过了懒狗的背。") len(doc.vocab) = 504'
猜你喜欢
  • 2020-03-02
  • 2020-04-18
  • 1970-01-01
  • 1970-01-01
  • 2019-11-15
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多