【发布时间】:2013-08-16 01:42:35
【问题描述】:
我将Support Vector Machines 用于document classification。我为每个文档设置的特征是一个tf-idf 向量。我有 M 个文档,每个 tf-idf 向量的大小为 N。 给出 M * N 矩阵。
M 的大小只有 10 个文档,tf-idf 向量是 1000 个词向量。所以我的特征远大于文档数量。每个单词也出现在 2 个或 3 个文档中。当我对每个特征( word )进行归一化时,即 [0,1] 中的列归一化与
val_feature_j_row_i = ( val_feature_j_row_i - min_feature_j ) / ( max_feature_j - min_feature_j)
当然,它要么给我 0,要么给我 1。
这给了我不好的结果。我正在使用libsvm,rbf function C = 0.0312,gamma = 0.007815
有什么建议吗?
我应该包含更多文件吗?或其他函数,如 sigmoid 或更好的归一化方法?
【问题讨论】:
标签: machine-learning normalization svm libsvm document-classification