【发布时间】:2014-02-25 13:01:48
【问题描述】:
SVM 新手 - 我有 160 个类别,从几个到多个成员术语和短语不等,用于训练数据。有些类别的词组很少,而有些类别则有数百个。
我有大量主题多样的文本测试数据。 我想我想要一个 MultiClass、oneVsRest SVM、二元分类器。
1) 1 个类别 SVM 的训练输入是否应该是一组具有 1 特征 3:1 特征 5:1 ... 对于肯定成员,其中 feature 是一个术语/短语 来自班级成员名单 - 二进制值是否足够? 和线 -1 特征 1:1 特征 2:1 特征 4:1 ... 对于 known_terms_of_interest 字典中其他类的所有成员?
2) 测试文档输入是否应该只包含在 known_terms_of_interest 字典中找到的术语?
3) 线性正确吗? -C 1 ? 还是因为某些 RBF 中的术语很少?
似乎示例以预处理文件而不是原始文本开头;所以我错过了关键的设置放置步骤,因为文档进入了边距等的描述。
【问题讨论】: