【问题标题】:Getting the vocabulary of Stanford's glove model获取斯坦福手套模型的词汇
【发布时间】:2022-01-16 13:53:31
【问题描述】:

有谁知道我能否获得手套模型的所有词汇?

我希望在这个视频 [15:40] 上和这个人对 BERT 做同样的事情:https://www.youtube.com/watch?v=zJW57aCBCTk&ab_channel=ChrisMcCormickAI

【问题讨论】:

    标签: nlp stanford-nlp


    【解决方案1】:

    GloVe 向量及其词汇表以(空格分隔的列)文本文件的形式简单分布。在 Unix 派生的操作系统上,您可以使用如下命令获取词汇表:

    cut -f 1 -d ' ' glove.6B.50d.txt

    如果您想在 Python 中执行此操作,请执行以下操作。唯一的技巧是文件不使用引用。相反,GloVe 文件只是使用空格作为分隔符,并且在标记内不允许有空格。

    import csv
    vocab = set()
    with open("glove.6B.100d.txt", encoding="utf-8") as f:
        g300 = csv.reader(f, delimiter=" ", quoting=csv.QUOTE_NONE, escapechar=None)
        for row in g300:
            vocab.add(row[0])
    print(vocab)
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-06-06
      • 2015-10-21
      • 2015-04-30
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-03-17
      • 1970-01-01
      相关资源
      最近更新 更多