【发布时间】:2018-08-09 11:11:14
【问题描述】:
我正在做文本分类,并计划使用 word2vec 词嵌入并将其传递给 Conv1D 层进行文本分类。我有一个dataframe,其中包含文本和相应的标签(情感)。我使用了 gensim 模块并使用 word2vec 算法来生成词嵌入模型。我使用的代码:
import pandas as pd
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
df=pd.read_csv('emotion_merged_dataset.csv')
texts=df['text']
labels=df['sentiment']
df_tokenized=df.apply(lambda row: word_tokenize(row['text']), axis=1)
model = Word2Vec(df_tokenized, min_count=1)
我打算使用 CNN 并使用这个词嵌入模型。但是我应该如何为我的 cnn 使用这个词嵌入模型呢?我应该输入什么?
我打算使用类似的东西(显然不是使用相同的超参数):
model = Sequential()
model.add(layers.Embedding(max_features, 128, input_length=max_len))
model.add(layers.Conv1D(32, 7, activation='relu'))
model.add(layers.MaxPooling1D(5))
model.add(layers.Conv1D(32, 7, activation='relu'))
model.add(layers.GlobalMaxPooling1D())
model.add(layers.Dense(1))
有人可以帮助我并指出正确的方向吗?提前致谢。
【问题讨论】:
-
您需要在嵌入层中加载 word2vec 权重,您还需要将单词转换为整数,以便嵌入层能够将每个单词转换为向量,为此 word2vec 有一个字典将每个单词映射到一个整数
-
@Kailegh 你能详细说明一下,最好用一些代码吗?感谢您闪电般的快速响应。
-
啊哈哈我现在正在工作,如果没有其他人这样做,我今晚会给你一个详细的答案虽然我通常会自己下载单词嵌入文件而不是使用 gensim 文件,但是我不会有问题
-
@Kaleigh 你能告诉我你提到的不使用 gensim 的替代方法吗?谢谢
-
我的回答对你有用吗?
标签: python keras conv-neural-network word2vec multiclass-classification