【发布时间】:2019-02-23 07:49:16
【问题描述】:
【问题讨论】:
【问题讨论】:
关于您展示的图表,WI 矩阵中的每一行都是一个词向量。 (训练后,当你向模型询问'cat'之类的单词时,它会找出从0到V的哪个槽存储'cat',然后返回WI 矩阵。)
WI 使用随机的低幅度向量进行初始化。 WO 在训练开始时保留为零。在训练过程中,WO 和 WI 的各行通过反向传播校正轻推反复改进,以使网络的输出层更能预测每个(上下文)->( word) 训练示例。
对于skip-gram,您可以将此图中的输入层视为单个上下文输入词的单热编码。对于 CBOW,您可以将此图中的输入层视为将多词上下文中每个词的计数作为 xi 值——大多数为零(稀疏)。在 CBOW 的实践中,每个词都在 WI 中查找,它们的词向量被平均以创建隐藏层激活。
skip-gram 和 CBOW 都可以在 WI 中创建有用的词向量。
【讨论】: