TensorFlow 2.x：无法以 h5 格式保存经过训练的模型（OSError：无法创建链接（名称已存在））答案

【问题标题】：TensorFlow 2.x: Cannot save trained model in h5 format (OSError: Unable to create link (name already exists))TensorFlow 2.x：无法以 h5 格式保存经过训练的模型（OSError：无法创建链接（名称已存在））
【发布时间】：2020-09-05 10:55:30
【问题描述】：

我的模型使用预处理数据来预测客户是私人客户还是非私人客户。预处理步骤使用 feature_column.bucketized_column(…)、feature_column.embedding_column(…) 等步骤。训练结束后，我尝试保存模型，但出现以下错误：

文件“h5py_objects.pyx”，第 54 行，在 h5py._objects.with_phil.wrapper
文件“h5py_objects.pyx”，第 55 行，在 h5py._objects.with_phil.wrapper
文件“h5py\h5o.pyx”，第 202 行，在 h5py.h5o.link
OSError: 无法创建链接（名称已存在）

我尝试了以下方法来解决我的问题：

我尝试排除此处提到的优化器：https://github.com/tensorflow/tensorflow/issues/27688。
我尝试了不同版本的 TensorFlow，例如 2.2 和 2.3。
我尝试重新安装 h5py，如下所述：RuntimeError: Unable to create link (name already exists) when I append hdf5 file?。

一切都没有成功！

Model的相关代码如下：

(feature_columns, train_ds, val_ds, test_ds) = preprocessing.getPreProcessedDatasets(args.data, args.zip, args.batchSize)

feature_layer = tf.keras.layers.DenseFeatures(feature_columns, trainable=False)

model = tf.keras.models.Sequential([
        feature_layer,
        tf.keras.layers.Dense(1, activation=tf.nn.sigmoid)
    ])

model.compile(optimizer='sgd',
        loss='binary_crossentropy',
        metrics=['accuracy'])

paramString = "Arg-e{}-b{}-z{}".format(args.epoch, args.batchSize, bucketSizeGEO)

...

model.fit(train_ds,
              validation_data=val_ds,
              epochs=args.epoch,
              callbacks=[tensorboard_callback])


model.summary()

loss, accuracy = model.evaluate(test_ds)
print("Accuracy", accuracy)

paramString = paramString + "-a{:.4f}".format(accuracy)

outputName = "logReg" + datetime.datetime.now().strftime("%Y%m%d-%H%M%S") + paramStrin

if args.saveModel:
       filepath = "./saved_models/" + outputName + ".h5"
       model.save(filepath, save_format='h5')

预处理Modul中的调用函数：

def getPreProcessedDatasets(filepath, zippath, batch_size, bucketSizeGEO):
    print("start preprocessing...")

    path = filepath
    data = pd.read_csv(path, dtype={
    "NAME1": np.str_, 
    "NAME2": np.str_, 
    "EMAIL1": np.str_, 
    "ZIP": np.str_, 
    "STREET": np.str_, 
    "LONGITUDE":np.floating, 
    "LATITUDE": np.floating, 
    "RECEIVERTYPE": np.int64}) 

    feature_columns = []

    data = data.fillna("NaN")

    data = __preProcessName(data)
    data = __preProcessStreet(data)
    
    train, test = train_test_split(data, test_size=0.2, random_state=0)
    train, val = train_test_split(train, test_size=0.2, random_state=0)

    train_ds = __df_to_dataset(train, batch_size=batch_size)
    val_ds = __df_to_dataset(val, shuffle=False, batch_size=batch_size)
    test_ds = __df_to_dataset(test, shuffle=False, batch_size=batch_size)


    __buildFeatureColums(feature_columns, data, zippath, bucketSizeGEO, True)

    print("preprocessing completed")

    return (feature_columns, train_ds, val_ds, test_ds)

调用特征的不同预处理函数：

def __buildFeatureColums(feature_columns, data, zippath, bucketSizeGEO, addCrossedFeatures):
    
    feature_columns.append(__getFutureColumnLon(bucketSizeGEO))
    feature_columns.append(__getFutureColumnLat(bucketSizeGEO))
    
    (namew1_one_hot, namew2_one_hot) = __getFutureColumnsName(__getNumberOfWords(data, 'NAME1PRO'))
    feature_columns.append(namew1_one_hot)
    feature_columns.append(namew2_one_hot)
    
    feature_columns.append(__getFutureColumnStreet(__getNumberOfWords(data, 'STREETPRO')))
    
    feature_columns.append(__getFutureColumnZIP(2223, zippath))
    
    if addCrossedFeatures:
        feature_columns.append(__getFutureColumnCrossedNames(100))
        feature_columns.append(__getFutureColumnCrossedZIPStreet(100, 2223, zippath))

与嵌入相关的功能：

def __getFutureColumnsName(name_num_words):
    vocabulary_list = np.arange(0, name_num_words + 1, 1).tolist()

    namew1_voc = tf.feature_column.categorical_column_with_vocabulary_list(
        key='NAME1W1', vocabulary_list=vocabulary_list, dtype=tf.dtypes.int64)
    namew2_voc = tf.feature_column.categorical_column_with_vocabulary_list(
        key='NAME1W2', vocabulary_list=vocabulary_list, dtype=tf.dtypes.int64)

    dim = __getNumberOfDimensions(name_num_words)

    namew1_embedding = feature_column.embedding_column(namew1_voc, dimension=dim)
    namew2_embedding = feature_column.embedding_column(namew2_voc, dimension=dim)

    return (namew1_embedding, namew2_embedding)

def __getFutureColumnStreet(street_num_words):
    vocabulary_list = np.arange(0, street_num_words + 1, 1).tolist()

    street_voc = tf.feature_column.categorical_column_with_vocabulary_list(
        key='STREETW', vocabulary_list=vocabulary_list, dtype=tf.dtypes.int64)

    dim = __getNumberOfDimensions(street_num_words)

    street_embedding = feature_column.embedding_column(street_voc, dimension=dim)

    return street_embedding

def __getFutureColumnZIP(zip_num_words, zippath):
    zip_voc = feature_column.categorical_column_with_vocabulary_file(
    key='ZIP', vocabulary_file=zippath, vocabulary_size=zip_num_words,
    default_value=0)

    dim = __getNumberOfDimensions(zip_num_words)

    zip_embedding = feature_column.embedding_column(zip_voc, dimension=dim)

    return zip_embedding

【问题讨论】：

错误的原因是模型中有一些重复的变量名。可能有多种原因。首先我们需要知道哪些变量有重名。请在保存之前运行它并在此处报告结果：for i, w in enumerate(model.weights): print(i, w.name).
感谢您的评论！结果如下：0 个顺序/dense_features/embedding_weights:0 1 个顺序/dense_features/embedding_weights:0 2 个顺序/dense_features/embedding_weights:0 3 个顺序/dense_features/embedding_weights:0 4 个顺序/dense/kernel:0 5 个顺序/dense/bias:0
embedding_weights 名称重复。因此，原因在于您的预处理管道中的某个地方。你能上传你的预处理代码吗？
我已经编辑了原问题，以便您可以看到相关的预处理步骤。
如您所想，问题在于嵌入列的权重名称。在删除三个嵌入中的两个后，只有一个名为 embedding_weights 的变量，我能够将模型保存为 h5 格式。我找不到任何重命名变量的方法。但正如这里提到的：github.com/tensorflow/tensorflow/issues/43011 问题已在 TF-nigthly 中得到解决！您能否将我们的发现总结一下作为答案，这样我就可以用赏金奖励您了？非常感谢！

标签： python tensorflow machine-learning keras h5py

【解决方案1】：

将模型保存为h5格式时出现错误OSError: Unable to create link (name already exists)是由一些重复的变量名引起的。通过for i, w in enumerate(model.weights): print(i, w.name) 进行检查表明它们是embedding_weights 名称。

通常，在构建feature_column 时，传递到每个特征列的不同key 将用于构建不同的变量name。这在 TF 2.1 中正常工作，但在 TF 2.2 和 2.3 中中断，据说是 fixed in TF 2.4 nigthly。

【讨论】：

很抱歉打扰您，但您是否也可以回答我的以下相关问题：stackoverflow.com/q/63810835/11986067
对于那些不想切换到 nightly 的人，我使用 for i in range(len(model.layers)): model.layer[i]._handle_name = model.layer[i]._name + "_" + str(i) 解决了它。我在 tf2.3 中做到了，不建议这样做，因为它操纵了一个带下划线的变量（这就是为什么不作为答案发布）

【解决方案2】：

我对 TF 2.3 的解决方法是基于 @SajanGohil 的评论，但我的问题是 weight 名称（不是 layer 名称）：

for i in range(len(model.weights)):
    model.weights[i]._handle_name = model.weights[i].name + "_" + str(i)

同样的警告也适用：这种方法会操纵 TF 内部，因此不是面向未来的。

【讨论】：

这个解决方案在 Tensorflow 2.3.1 上对我有用

【解决方案3】：

我发现，当我从模型检查点加载模型，使用相同的优化器、指标和损失函数进行模型编译并对其进行训练时，也会发生这种情况。但是如果我避免用相同的参数再次编译它，这个错误信息就不会再出现了。

【讨论】：