【问题标题】:Spacy 2.0 en_vectors_web_lg vs en_core_web_lgSpacy 2.0 en_vectors_web_lg 与 en_core_web_lg
【发布时间】:2017-11-08 15:43:24
【问题描述】:

en_core_web_lgen_vectors_web_lg给出的词向量有什么区别?键的数量不同:1.1m vs 685k。我认为这意味着 en_vectors_web_lg 具有更广泛的覆盖范围,通过维护形态信息在某种程度上导致更多不同的标记,因为它们都在常见的爬网语料库上训练但具有不同数量的标记。

【问题讨论】:

    标签: spacy


    【解决方案1】:

    en_vectors_web_lg 包包含原始 GloVe 模型提供的每个向量。 en_core_web_lg 模型使用 v1.x en_core_web_lg 模型中的词汇表,该模型从内存中删除了在 Reddit cmets 的 100 亿字转储中出现少于 10 次的所有条目。

    理论上,大多数被删除的向量应该是 spaCy 标记器永远不会产生的东西。然而,早期使用完整 GloVe 向量进行的实验的得分确实略高于当前的 NER 模型——所以我们实际上可能因为丢失了额外的向量而错过了一些东西。我会在这方面做更多的实验,并且可能会切换 lg 模型以包含未修剪的向量表,尤其是现在我们有 md 模型,它比当前的 lg 包具有更好的折衷。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-04-09
      • 2019-11-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多