【发布时间】:2022-01-16 13:53:31
【问题描述】:
有谁知道我能否获得手套模型的所有词汇?
我希望在这个视频 [15:40] 上和这个人对 BERT 做同样的事情:https://www.youtube.com/watch?v=zJW57aCBCTk&ab_channel=ChrisMcCormickAI
【问题讨论】:
标签: nlp stanford-nlp
有谁知道我能否获得手套模型的所有词汇?
我希望在这个视频 [15:40] 上和这个人对 BERT 做同样的事情:https://www.youtube.com/watch?v=zJW57aCBCTk&ab_channel=ChrisMcCormickAI
【问题讨论】:
标签: nlp stanford-nlp
GloVe 向量及其词汇表以(空格分隔的列)文本文件的形式简单分布。在 Unix 派生的操作系统上,您可以使用如下命令获取词汇表:
cut -f 1 -d ' ' glove.6B.50d.txt
如果您想在 Python 中执行此操作,请执行以下操作。唯一的技巧是文件不使用引用。相反,GloVe 文件只是使用空格作为分隔符,并且在标记内不允许有空格。
import csv
vocab = set()
with open("glove.6B.100d.txt", encoding="utf-8") as f:
g300 = csv.reader(f, delimiter=" ", quoting=csv.QUOTE_NONE, escapechar=None)
for row in g300:
vocab.add(row[0])
print(vocab)
【讨论】: