特征向量：计算训练集与测试集的权重答案

【问题标题】：feature vector: calculation of weights for training vs test set特征向量：计算训练集与测试集的权重
【发布时间】：2013-04-14 00:37:58
【问题描述】：

我正在使用支持向量机进行文本分类，但基本上我对测试集的特征向量计算感到困惑。

对于训练特征向量，我为每个训练数据取 TF-IDF 向量，并使用 TF-IDF 值构造了一个特征矩阵 [docs x terms]。

但是如何计算测试集的特征向量呢？我应该只使用训练集中的 TF-IDF 值来计算它吗？

例如：在特定单词“apple”的训练集中，文档频率为 5。对于测试集，我应该将值 5 用于“apple”吗？还是根据测试集重新计算 TF-IDF？或者更确切地说，我在计算特征向量时是否走错路了？？

提前致谢！

【问题讨论】：

【解决方案1】：

您应该使用训练集计算每个术语的 IDF（逆文档频率）。然后，您应该对测试集中的文档使用相同的 IDF。另一方面，TF 取决于您尝试分类的具体文档，因此对于测试和训练集中的不同文档，它会有所不同。

【讨论】：