【发布时间】:2016-09-08 14:42:04
【问题描述】:
这个问题很难回答:我怎样才能给神经网络提供动态输入?
回答这个问题肯定会有助于现代人工智能的进步,将深度学习用于计算机视觉和语音识别以外的应用。 我将为神经网络的外行进一步解释这个问题。
我们以这个简单的例子为例:
假设您需要知道在“井字游戏”游戏中获胜、失败或平局的概率。
所以我的输入可以是一个表示状态的 [3,3] 矩阵(1-You, 2-Enemy, 0-Empty):
[2. 1. 0.]
[0. 1. 0.]
[2. 2. 1.]
假设我们已经有一个先前训练的隐藏层,一个 [3,1] 权重矩阵:
[1.5]
[0.5]
[2.5]
因此,如果我们使用一个简单的激活函数,该函数基本上由两个 y(x)=W*x 之间的矩阵相乘组成,我们会在 中得到这个 [3,1] 矩阵输出:
[2. 1. 0.] [1.5] [3.5]
[0. 1. 0.] * [0.5] = [0.5]
[2. 2. 1.] [2.5] [6.5]
即使没有 softmax 函数,您也可以判断出最高概率是平局。
但如果我想让同样的神经网络在 5x5 井字游戏中工作呢?
它的逻辑与 3x3 相同,只是更大。神经网络应该能够处理它
我们会有类似的东西:
[2. 1. 0. 2. 0.]
[0. 2. 0. 1. 1.] [1.5] [?]
[2. 1. 0. 0. 1.] * [0.5] = [?] IMPOSSIBLE
[0. 0. 2. 2. 1.] [2.5] [?]
[2. 1. 0. 2. 0.]
但是这种乘法无法计算。我们将不得不添加更多层和/或更改我们之前训练的层并重新训练它,因为未经训练的权重(在这种情况下初始化为 0)会导致神经网络失败,就像这样:
input 1st Layer output1
[2. 1. 0. 2. 0.] [0. 0. 0.] [6.5 0. 0.]
[0. 2. 0. 1. 1.] [1.5 0. 0.] [5.5 0. 0.]
[2. 1. 0. 0. 1.] * [0.5 0. 0.] = [1.5 0. 0.]
[0. 0. 2. 2. 1.] [2.5 0. 0.] [6. 0. 0.]
[2. 1. 0. 2. 0.] [0. 0. 0.] [6.5 0. 0.]
2nd Layer output1 final output
[6.5 0. 0.]
[5.5 0. 0.]
[0. 0. 0. 0. 0.] * [1.5 0. 0.] = [0. 0. 0.] POSSIBLE
[6. 0. 0.]
[6.5 0. 0.]
因为我们扩展了第一层并添加了一个零权重的新层,所以我们的结果显然没有定论。如果我们应用一个 softmax 函数,我们将意识到神经网络为每个可能的结果返回 33.3% 的机会。 我们需要再次训练它。
显然我们想要创建可以适应不同输入大小的通用神经网络,但是我还没有想到解决这个问题的方法!所以我想也许stackoverflow可以提供帮助。千千万万个脑袋比一个脑袋好。 有什么想法吗?
【问题讨论】:
-
就像在图像方法中一样,您将训练一个固定大小的 NN 并预缩放您的输入(如图像调整大小)。这很常见,它可能是目前最好的工作方法。还要记住,玩家 1 和 2 的 1/2 编码与最佳方法(-1/1 甚至多个平面)相去甚远。再说一句,因为您似乎对 NN 和 Game-AI 没有太多经验:3 值输出是 hm。通常有两种方法:价值网络或策略网络。前者输出一个描述分数的值(从当前玩家的角度来看),后者输出一个关于移动的 PDF。
-
是的,但是有像井字棋这样的例子,我们不能在不丢失信息的情况下调整输入的大小。这仅适用于几个像素无关紧要的图像。我们需要一个更好的方法来做到这一点。至于例子的注释,是的,可能不是最好的选择,我只是快速拼凑起来帮助解释。
标签: neural-network deep-learning matrix-multiplication max-pooling