【发布时间】:2016-10-13 05:06:09
【问题描述】:
我正在研究 tensorflow 的 textsum(文本摘要模型)。我已经运行它来使用样本数据训练模型,即从 git 克隆时模型提供的玩具数据集。我想知道用样本数据集训练模型和解码需要多少时间?它已经花费了 17 多个小时并且仍在运行。
【问题讨论】:
-
正如@Eilian 下面所说的,如果你在CPU 上运行它,你可能需要一段时间。如果您无法访问 GPU,您可能想考虑使用 AWS G2 或 P2 实例:aws.amazon.com/ec2/instance-types 当我对玩具数据集进行训练时,我得到了不错的结果,平均损失非常低在我的 980M 上训练了一天。但需要注意的重要一点是,如果您使用包含的玩具数据集词汇,您将不会得到有效的结果,因为训练集中的单词不在玩具词汇文件中。 github.com/tensorflow/models/issues/464
-
我在 GPU 上运行训练模型;y。但我已将 max_run_steps 更改为“2000”。它运行了 2-3 小时,模型得到了训练。
-
在这里,我将玩具数据集拆分为 17-4(训练-测试)。并使用相同的词汇文件训练模型。但我在解码步骤方面遇到了一些问题。更改训练数据时是否需要修改 vocab 文件?如何从训练数据集中生成词汇文件?
-
只是为了回答你关于词汇文件的问题。词汇文件所代表的只是训练数据中的单个单词及其出现的总数。因此,如果在所有数据文件中,单词“the”出现了 150 次,那么您将在 vocab 文件中看到“the 150”。因此,当我创建它时,作为原始数据格式的一部分,我记录了计数,最后将数据输出到词汇文件。
标签: tensorflow elapsedtime textsum