【发布时间】:2019-03-03 02:08:58
【问题描述】:
在阅读注意力机制时,我对注意力一词感到困惑。它与我们通常定义中描述的注意力性质相同吗?
【问题讨论】:
标签: deep-learning attention-model
在阅读注意力机制时,我对注意力一词感到困惑。它与我们通常定义中描述的注意力性质相同吗?
【问题讨论】:
标签: deep-learning attention-model
例如在机器翻译任务中,直觉上这相当于输出一个翻译后的单词,然后返回所有文本的内部记忆,以决定接下来要生成哪个单词。这似乎是一种浪费,而不是人类正在做的事情。事实上,它更类似于内存访问,而不是注意力,在我看来这有点用词不当(更多内容见下文)。尽管如此,这并没有阻止注意力机制变得非常流行并在许多任务上表现良好。
【讨论】:
注意,正如Attention Is All You Need 中所介绍的,恕我直言,它与我们的大脑用作注意机制的机制非常相似。
我们的大脑中有一个名为 LGN 的东西,负责为手头的任务过滤掉不必要的信息。例如,如果我开始寻找我的钥匙,我的大脑将不太注意银色或金色以外的颜色(希望如此)。现在,我不知道人类大脑的更高层次的注意力机制。然而,有一点很清楚的是,信息在注意力之前通过每一层,并以神经活动的形式表示。
当您输入世界当前状态的人工模型表示时,信息将表示为张量,同样,注意力可以让您看到做出最佳决策所需的内容(类似于查找密钥)。
【讨论】: