【发布时间】:2018-02-23 18:17:38
【问题描述】:
这更像是一个深度学习的概念问题,如果这不是合适的平台,我会把它带到别处。
我正在尝试使用 Keras LSTM 顺序模型来学习文本序列并将它们映射到数值(回归问题)。
问题是,在高损失(训练和测试)上,学习总是收敛得太快。我已经尝试了所有可能的超参数,我感觉这是导致模型高偏差的局部最小值问题。
我的问题基本上是:
- 鉴于此问题,如何初始化权重和偏差?
- 使用哪个优化器?
- 我应该将网络扩展多深(我怕如果我使用非常深的网络,训练时间会难以忍受,模型方差会增大)
- 我应该添加更多训练数据吗?
输入和输出用 minmax 归一化。
我正在使用带有动量的 SGD,目前有 3 个 LSTM 层(126,256,128)和 2 个密集层(200 和 1 个输出神经元)
我在几个时期后打印了权重,并注意到 许多权重 是零,其余的基本上都是1(或非常接近)。
【问题讨论】:
-
我喜欢使用
'adam'优化器,它通常会自动找到自己的方式。但是如果没有很多测试和细节,你的答案就无法给出。看来您的学习率可能太高,但这可能不是唯一可能的原因。 -
你的激活函数是什么?
标签: python tensorflow deep-learning keras lstm