【问题标题】:feature vector: calculation of weights for training vs test set特征向量:计算训练集与测试集的权重
【发布时间】:2013-04-14 00:37:58
【问题描述】:

我正在使用支持向量机进行文本分类,但基本上我对测试集的特征向量计算感到困惑。

对于训练特征向量,我为每个训练数据取 TF-IDF 向量,并使用 TF-IDF 值构造了一个特征矩阵 [docs x terms]。

但是如何计算测试集的特征向量呢?我应该只使用训练集中的 TF-IDF 值来计算它吗?

例如:在特定单词“apple”的训练集中,文档频率为 5。 对于测试集,我应该将值 5 用于“apple”吗?还是根据测试集重新计算 TF-IDF?或者更确切地说,我在计算特征向量时是否走错路了??

提前致谢!

【问题讨论】:

    标签: classification feature-extraction document-classification


    【解决方案1】:

    您应该使用训练集计算每个术语的 IDF(逆文档频率)。然后,您应该对测试集中的文档使用相同的 IDF。另一方面,TF 取决于您尝试分类的具体文档,因此对于测试和训练集中的不同文档,它会有所不同。

    【讨论】:

    • 你好。这种方法有什么参考吗?最好来自文献ty中的文章
    猜你喜欢
    • 1970-01-01
    • 2014-09-10
    • 2015-01-17
    • 2022-11-15
    • 2020-03-19
    • 2017-04-05
    • 2018-08-19
    • 2017-11-26
    • 2017-11-21
    相关资源
    最近更新 更多