SVM 的关键短语答案

【问题标题】：key phrases to SVMSVM 的关键短语
【发布时间】：2014-02-25 13:01:48
【问题描述】：

SVM 新手 - 我有 160 个类别，从几个到多个成员术语和短语不等，用于训练数据。有些类别的词组很少，而有些类别则有数百个。

我有大量主题多样的文本测试数据。我想我想要一个 MultiClass、oneVsRest SVM、二元分类器。

1) 1 个类别 SVM 的训练输入是否应该是一组具有 1 特征 3：1 特征 5：1 ... 对于肯定成员，其中 feature 是一个术语/短语来自班级成员名单 - 二进制值是否足够？和线 -1 特征 1：1 特征 2：1 特征 4：1 ... 对于 known_terms_of_interest 字典中其他类的所有成员？

2) 测试文档输入是否应该只包含在 known_terms_of_interest 字典中找到的术语？

3) 线性正确吗？ -C 1 ？还是因为某些 RBF 中的术语很少？

似乎示例以预处理文件而不是原始文本开头；所以我错过了关键的设置放置步骤，因为文档进入了边距等的描述。

【问题讨论】：

标签： svm libsvm liblinear

【解决方案1】：

1) 1 个类别 SVM 的训练输入是否应该是一组行有 1 个 feature3:1 feature5:1 ... 对于积极的成员，其中特征是类成员列表中的一个术语/短语 - 是二进制的价值足够吗？和 -1 feature1:1 feature2:1 feature4:1 的行... 对于字典中其他类的所有成员 known_terms_of_interest？

如果您的“featureX”是一个自然数（您的单词/短语的索引），那么您刚刚描述了一组有效的单词表示。这是最基本的文本分类方法，但它应该可以工作（在某种意义上——它是正确的）

2) 测试文档输入是否应该只包含在 known_terms_of_interest 字典中找到的术语？

它们必须仅包含在训练阶段看到的单词/短语的特征（如前所述 - 作为索引）。如果您提供以前从未见过的功能，libsvm 将无法运行。

3) 线性正确吗？ -C 1 ？还是因为某些 RBF 中的术语很少？

此类问题没有答案，必须使用一些泛化测试技术（如交叉验证）来拟合内核类型和 C 值（以及 RBF 中的 gamma）。

【讨论】：

您是否希望添加词频数据来改进分类？ 160 个类中的 16,000 个术语/短语是明确的，所以我希望找到或没有二进制文件就足够了。
这会将 Set of Words 更改为 Bag of Words，这是最基本的方法之一。