【问题标题】:Differences between en_vectors_web_lg and Glove vectors (spaCy)en_vectors_web_lg 和 Glove 向量之间的差异 (spaCy)
【发布时间】:2018-02-14 04:15:07
【问题描述】:

https://spacy.io/models/en#en_vectors_web_lg 表示该模型包含 1.1m 个密钥,但 https://nlp.stanford.edu/projects/glove/ 表示 Glove 向量包含 220 万个词汇

我可以知道缺少哪些词汇吗?

非常感谢。

【问题讨论】:

    标签: python spacy language-model


    【解决方案1】:

    您可以通过查看 spaCy .vocab 属性/对象自己检查 spaCy 和 GloVe 模型的词汇表,并将其与 GloVe 文件中的单词进行比较。首先将数据加载到两个列表中:

    import spacy
    nlp = spacy.load('en_vectors_web_lg')
    spacy_words = [word for word in nlp.vocab.strings]
    glove_filename = 'glove.840B.300d.txt'
    glove_words = [line.split()[0].decode('utf-8') for line in open(glove_filename)]
    

    然后检查设置的差异以获得“缺失”的单词:

    >>> list(set(glove_words) - set(spacy_words))[:10]
    [u'Inculcation', u'Dholes', u'6-night', u'AscensionMidkemia',
     u'.90.99', u'USAMol', u'USAMon', u'Connerty', u'RealLife',
     u'NaughtyAllie']
    
    >>> list(set(spacy_words) - set(glove_words))[:10]
    [u'ftdna', u'verplank', u'NICARIO', u'Plastic-Treated', u'ZAI-TECH',
     u'Lower-Sulfur', u'desmonds', u'KUDNER', u'berlinghoff', u'50-ACRE']
    

    有超过 2.2 mio - 1.1 mio ~ 1.1 mio 单词丢失:

    >>> len(set(glove_words) - set(spacy_words))
    1528158
    

    请注意nlp.vocab.stringsnlp.vocab.vectors 中的内容有所不同。您可以使用

    从矢量对象加载单词
    vector_words = []
    for key, vector in nlp.vocab.vectors.items():
        try:
            vector_words.append(nlp.vocab.strings[key])
        except KeyError:
            pass
    

    (关于 try/except:我不清楚为什么vocab.strings 中缺少某些键)

    通过此列表,您可以获得:

    >>> list(set(glove_words) - set(vector_words))[:10]
    [u'Inculcation', u'Dholes', u'6-night', u'AscensionMidkemia', u'.90.99',  
     u'USAMol', u'USAMon', u'Connerty', u'RealLife', u'NaughtyAllie']
    

    更新:词汇之间的差异问题已经在这里提出https://github.com/explosion/spaCy/issues/1985

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-03-05
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-10-12
      • 2017-09-29
      相关资源
      最近更新 更多