【发布时间】:2013-08-15 21:49:20
【问题描述】:
我正在使用 libsvm 进行文档分类。
我只在我的项目中使用 svm.h 和 svm.cc。
它的结构 svm_problem 需要非零的 svm_node 数组,因此使用稀疏。
我得到一个 tf-idf 单词的向量,可以说在 [5,10] 范围内。如果我将其归一化为 [0,1],则所有 5 都将变为 0。
在将其发送到 svm_train 时我应该删除这些零吗?
删除这些是否不会减少信息并导致不良结果?
我应该从 0.001 而不是 0 开始标准化吗?
嗯,一般来说,在 SVM 中,[0,1] 中的归一化不会减少信息吗?
【问题讨论】:
标签: machine-learning normalization svm libsvm document-classification