【问题标题】:model.get_weights() returning array of NaNs after training due to NaN masking由于 NaN 屏蔽,model.get_weights() 在训练后返回 NaN 数组
【发布时间】:2019-05-11 23:43:17
【问题描述】:

我正在尝试训练 LSTM 对各种长度的序列进行分类。我想得到这个模型的权重,所以我可以在模型的有状态版本中使用它们。训练前,权重是正常的。此外,训练似乎运行成功,误差逐渐减小。但是,当我将掩码值从 -10 更改为 np.Nan 时,mod.get_weights() 开始返回 NaNs 的数组,并且验证错误突然下降到接近零的值。为什么会出现这种情况?

from keras import models
from keras.layers import Dense, Masking, LSTM
from keras.optimizers import RMSprop
from keras.losses import categorical_crossentropy
from keras.preprocessing.sequence import pad_sequences

import numpy as np
import matplotlib.pyplot as plt


def gen_noise(noise_len, mag):
    return np.random.uniform(size=noise_len) * mag


def gen_sin(t_val, freq):
    return 2 * np.sin(2 * np.pi * t_val * freq)


def train_rnn(x_train, y_train, max_len, mask, number_of_categories):
    epochs = 3
    batch_size = 100

    # three hidden layers of 256 each
    vec_dims = 1
    hidden_units = 256
    in_shape = (max_len, vec_dims)

    model = models.Sequential()

    model.add(Masking(mask, name="in_layer", input_shape=in_shape,))
    model.add(LSTM(hidden_units, return_sequences=False))
    model.add(Dense(number_of_categories, input_shape=(number_of_categories,),
              activation='softmax', name='output'))

    model.compile(loss=categorical_crossentropy, optimizer=RMSprop())

    model.fit(x_train, y_train, batch_size=batch_size, epochs=epochs,
              validation_split=0.05)

    return model


def gen_sig_cls_pair(freqs, t_stops, num_examples, noise_magnitude, mask, dt=0.01):
    x = []
    y = []

    num_cat = len(freqs)

    max_t = int(np.max(t_stops) / dt)

    for f_i, f in enumerate(freqs):
        for t_stop in t_stops:
            t_range = np.arange(0, t_stop, dt)
            t_len = t_range.size

            for _ in range(num_examples):
                sig = gen_sin(f, t_range) + gen_noise(t_len, noise_magnitude)
                x.append(sig)

                one_hot = np.zeros(num_cat, dtype=np.bool)
                one_hot[f_i] = 1
                y.append(one_hot)

    pad_kwargs = dict(padding='post', maxlen=max_t, value=mask, dtype=np.float32)
    return pad_sequences(x, **pad_kwargs), np.array(y)


if __name__ == '__main__':
    noise_mag = 0.01
    mask_val = -10
    frequencies = (5, 7, 10)
    signal_lengths = (0.8, 0.9, 1)
    dt_val = 0.01

    x_in, y_in = gen_sig_cls_pair(frequencies, signal_lengths, 50, noise_mag, mask_val)
    mod = train_rnn(x_in[:, :, None], y_in, int(np.max(signal_lengths) / dt_val), mask_val, len(frequencies))

即使我将网络架构更改为 return_sequences=True 并用 TimeDistributed 包裹 Dense 层,这种情况仍然存在,也不会删除 LSTM 层。

【问题讨论】:

  • 为什么要使用 NaN 作为掩码值?您的输入中似乎没有 NaN
  • @shadi 完全正确。它不在我的输入中,所以我认为它会成为一个很好的掩码值

标签: python keras


【解决方案1】:

我遇到了同样的问题。在您的情况下,我可以看到它可能有所不同,但有人可能有同样的问题并从谷歌来到这里。所以在我的例子中,我将 sample_weight 参数传递给 fit() 方法,当样本权重包含一些零时,get_weights() 返回一个带有 NaN 的数组。当我省略了 sample_weight=0 的样本(如果 sample_weight=0,它们无论如何都没用),它就开始起作用了。

【讨论】:

  • 权重最初应为非零,偏差可能为零。然而,Keras 会处理这个问题。
【解决方案2】:

权重确实在变化。不变的权重来自图像的边缘,它们可能没有改变,因为边缘对数字分类没有帮助。 检查选择特定图层并查看结果:

print(model.layers[70].get_weights()[1])

70 :在我的例子中是最后一层的编号。

【讨论】:

    【解决方案3】:

    keras.engine.training.Model 实例的get_weights() 方法应该检索模型的权重。

    这应该是 Numpy 数组的平面列表,或者换句话说,这应该是模型中所有权重张量的列表。

    mw = model.get_weights()
    print(mw)
    

    如果你得到 NaN(s),这有特定的含义。您正在处理梯度消失问题。 (在某些情况下甚至使用爆炸梯度)。

    我会首先尝试更改模型以减少梯度消失的机会。尝试先减少hidden_units,然后标准化您的激活。

    即使 LSTM 可以解决梯度消失/爆炸问题,您也需要从 (-1, 1) 区间设置正确的激活。

    注意这个区间是浮点数最精确的地方。

    在遮罩层下使用np.nan 是不可预测的操作,因为您无法与np.nan 进行比较。

    尝试print(np.nan==np.nan),它会返回False。这是 IEEE 754 标准的老问题。

    或者它实际上可能是基于 IEEE 754 标准弱点的 Tensorflow 中的一个错误。

    【讨论】:

    • 为什么改变掩码值会改变计算的梯度?
    • np.nan 合作是不可预测的。试试print(np.nan==np.nan) 这意味着这个屏蔽不起作用。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-09-07
    • 1970-01-01
    • 2015-08-03
    • 2022-11-03
    • 1970-01-01
    • 2016-09-10
    • 1970-01-01
    相关资源
    最近更新 更多