【发布时间】:2011-09-04 13:20:19
【问题描述】:
我想用 SVM 编写一个垃圾邮件过滤程序,我选择 libsvm 作为工具。
我收到了 1000 封好邮件和 1000 封垃圾邮件,然后我将它们分类为:
700 封 good_train 邮件 700 封 spam_train 邮件
300 封 good_test 邮件 300 封 spam_test 邮件
然后我写了一个程序来计算每个文件中每个单词出现的时间,得到的结果如下:
good_train_1.txt: today 3 hello 7 help 5 ...
我了解到 libsvm 需要如下格式:
1 1:3 2:1 3:0
2 1:3 2:3 3:1
1 1:7 3:9
作为它的输入。我知道 1, 2, 1 是标签,但是 1:3 是什么意思呢?
我怎样才能将我拥有的东西转换成这种格式?
【问题讨论】:
标签: machine-learning svm libsvm