【发布时间】:2017-11-08 15:43:24
【问题描述】:
en_core_web_lg和en_vectors_web_lg给出的词向量有什么区别?键的数量不同:1.1m vs 685k。我认为这意味着 en_vectors_web_lg 具有更广泛的覆盖范围,通过维护形态信息在某种程度上导致更多不同的标记,因为它们都在常见的爬网语料库上训练但具有不同数量的标记。
【问题讨论】:
标签: spacy
en_core_web_lg和en_vectors_web_lg给出的词向量有什么区别?键的数量不同:1.1m vs 685k。我认为这意味着 en_vectors_web_lg 具有更广泛的覆盖范围,通过维护形态信息在某种程度上导致更多不同的标记,因为它们都在常见的爬网语料库上训练但具有不同数量的标记。
【问题讨论】:
标签: spacy
en_vectors_web_lg 包包含原始 GloVe 模型提供的每个向量。 en_core_web_lg 模型使用 v1.x en_core_web_lg 模型中的词汇表,该模型从内存中删除了在 Reddit cmets 的 100 亿字转储中出现少于 10 次的所有条目。
理论上,大多数被删除的向量应该是 spaCy 标记器永远不会产生的东西。然而,早期使用完整 GloVe 向量进行的实验的得分确实略高于当前的 NER 模型——所以我们实际上可能因为丢失了额外的向量而错过了一些东西。我会在这方面做更多的实验,并且可能会切换 lg 模型以包含未修剪的向量表,尤其是现在我们有 md 模型,它比当前的 lg 包具有更好的折衷。
【讨论】: