【问题标题】:how's the input word2vec get fine-tuned when training CNN训练 CNN 时如何微调输入 word2vec
【发布时间】:2017-02-27 03:35:03
【问题描述】:

当我阅读论文“Convolutional Neural Networks for Sentence Classification”-Yoon Kim-New York University 时,我注意到该论文实现了“CNN-non-static”模型--A model with pre-trained vectors from word2vec ,以及所有单词——包括随机初始化的未知单词,预训练向量针对每个任务进行微调。 所以我只是不明白预训练的向量是如何针对每个任务进行微调的。因为据我所知,输入向量是由 word2vec.bin(预训练)从字符串转换而来的,就像图像矩阵一样,在训练 CNN 期间不能改变。那么,如果他们可以,怎么做?请帮帮我,非常感谢!

【问题讨论】:

    标签: nlp svm deep-learning


    【解决方案1】:

    词嵌入是神经网络的权重,因此可以在反向传播期间更新。

    例如http://sebastianruder.com/word-embeddings-1/

    自然地,每个从词汇表中获取单词作为输入并将它们作为向量嵌入到较低维空间中的前馈神经网络,然后通过反向传播对其进行微调,必然会产生词嵌入作为词的权重第一层,通常称为Embedding Layer。

    【讨论】:

    • 感谢您的回复,现在我明白了,但我仍然有问题,希望您能帮助我,非常感谢!这是我的问题:
    • 1.当我训练自己的 CNN 进行文本分类时,我使用 word2vec 来初始化单词,然后我只是使用这些预训练的向量作为我的输入特征来训练 CNN,所以如果我从来没有一个嵌入层,它肯定不能通过反向传播进行任何微调。我的问题是如果我想做微调,是否意味着创建一个嵌入层?以及如何创建它?
    • 2.当我们训练word2vec时,我们使用无监督训练对吗?就我而言,我使用skip-gram模型来获得我的预训练word2vec;但是当我有 vec.bin 并在文本分类模型 (CNN) 中使用它作为我的单词初始化器时,如果我可以微调 vec.bin 中的单词到向量映射,是否意味着我必须拥有CNN 网络结构与训练 word2vec 时的网络结构完全相同?
    • 3. skip-gram 模型和 CBOW 模型是否只用于无监督 word2vec 训练?或者他们也可以申请其他通用文本分类任务? word2vec 无监督训练有监督微调的网络有什么不同?
    • 希望您没有失去耐心!如果你能帮助我,真的很感激!再次感谢您!
    猜你喜欢
    • 2017-03-01
    • 1970-01-01
    • 1970-01-01
    • 2016-12-01
    • 1970-01-01
    • 1970-01-01
    • 2021-04-26
    • 2021-11-19
    • 2021-01-18
    相关资源
    最近更新 更多