这是组队学习第二次打卡了,Task3~Task5一共有9个任务,我觉得有点多,每个都做肯定完不成,而且有的任务我比较熟悉,也就不占用时间了,我重点就关注自己不熟悉的任务:seq2seq,attention,transform
之前学过了RNN,它的结构可以是:一对一,一对多(一个输入,循环多次输出),多对一(一直到网络的最后才输出),多对多(每一个输入对应一个输出)。
RNN可以是定长的输入,输出也可以是定长的,如果现在碰到的问题是不定长的输入和不定长的输出,怎么办 ? seq2seq来了
这样,不定长的输入到不定长的输出问题解决了。
现在又碰到新的问题:假设在机器翻译中,"Hello,world" -->"你好,世界",这里输出的第一个结果和第一个输入是紧密相关的,而和其他输入关系是不大的,而且seq2seq中,decoder每个隐藏层都使用的是从encoder传来的content vector(背景向量),没有区分度,一个自然的想法就是:当我在decoder的时候,每个隐藏单元对content vector的利用应该是有权重的,也就是说,不同的输出位置对不同的输入位置的关注是不一样的,注意力不同,这就是注意力机制,attention。