【发布时间】:2019-08-07 11:40:33
【问题描述】:
我已经使用 keras 来使用预训练的词嵌入,但我不太确定如何在 scikit-learn 模型上做到这一点。
我也需要在 sklearn 中执行此操作,因为我使用 vecstack 来集成 keras 顺序模型和 sklearn 模型。
这是我为 keras 模型所做的:
glove_dir = '/home/Documents/Glove'
embeddings_index = {}
f = open(os.path.join(glove_dir, 'glove.6B.200d.txt'), 'r', encoding='utf-8')
for line in f:
values = line.split()
word = values[0]
coefs = np.asarray(values[1:], dtype='float32')
embeddings_index[word] = coefs
f.close()
embedding_dim = 200
embedding_matrix = np.zeros((max_words, embedding_dim))
for word, i in word_index.items():
if i < max_words:
embedding_vector = embeddings_index.get(word)
if embedding_vector is not None:
embedding_matrix[i] = embedding_vector
model = Sequential()
model.add(Embedding(max_words, embedding_dim, input_length=maxlen))
.
.
model.layers[0].set_weights([embedding_matrix])
model.layers[0].trainable = False
model.compile(----)
model.fit(-----)
我对 scikit-learn 很陌生,从我所看到的在 sklearn 中制作模型你所做的:
lr = LogisticRegression()
lr.fit(X_train, y_train)
lr.predict(x_test)
那么,我的问题是如何在这个模型中使用预训练的 Glove?我在哪里通过预训练手套embedding_matrix
非常感谢您,非常感谢您的帮助。
【问题讨论】:
-
请描述您想要在
sklearn中构建的模型,最好使用公式和/或描述图。 -
您好,我只想要一个带有预训练词嵌入的逻辑回归模型,并取词嵌入向量的平均值。
-
输入是亚马逊评论。既然是评论(文本),那么词嵌入就发挥了巨大的作用,对吧?
-
所以你想输入....一些文本的词袋表示,即文本中单个词计数的固定长度向量?
-
嗯,是的,不是的。我已经使用 Tokenizer 将文本向量化并将其转换为序列,因此它可以用作输入。我想要词嵌入而不是词袋,因为我认为词袋方法是非常特定于领域的,我也想跨领域工作。
标签: python keras scikit-learn word-embedding glove