【发布时间】:2017-06-13 07:11:51
【问题描述】:
这听起来像是一个幼稚的问题,但我对此很陌生。假设我使用 Google 预训练的 word2vector 模型 (https://github.com/dav/word2vec) 来训练分类模型。我保存了我的分类模型。现在我将分类模型加载回内存以测试新实例。我需要再次加载 Google word2vector 模型吗?还是仅用于训练我的模型?
【问题讨论】:
这听起来像是一个幼稚的问题,但我对此很陌生。假设我使用 Google 预训练的 word2vector 模型 (https://github.com/dav/word2vec) 来训练分类模型。我保存了我的分类模型。现在我将分类模型加载回内存以测试新实例。我需要再次加载 Google word2vector 模型吗?还是仅用于训练我的模型?
【问题讨论】:
这取决于您的语料库和测试示例的结构和预处理方式。
您可能正在使用预训练的词向量将文本转换为数字特征。首先,文本示例被向量化以训练分类器。稍后,其他(测试/生产)文本示例将在相同的情况下进行矢量化,并呈现给分类器以获取其判断。
因此,您需要对测试/生产文本示例使用与训练期间使用的相同的文本到向量流程。也许您已经在之前的单独批量步骤中完成了该操作,在这种情况下,您已经拥有分类器使用的向量形式的特征。但通常你的分类器管道本身会获取原始文本,并将其矢量化——在这种情况下,它需要与训练期间可用的相同的预训练 (word)->(vector) 映射在测试时可用。
【讨论】: