【问题标题】:key phrases to SVMSVM 的关键短语
【发布时间】:2014-02-25 13:01:48
【问题描述】:

SVM 新手 - 我有 160 个类别,从几个到多个成员术语和短语不等,用于训练数据。有些类别的词组很少,而有些类别则有数百个。

我有大量主题多样的文本测试数据。 我想我想要一个 MultiClass、oneVsRest SVM、二元分类器。

1) 1 个类别 SVM 的训练输入是否应该是一组具有 1 特征 3:1 特征 5:1 ... 对于肯定成员,其中 feature 是一个术语/短语 来自班级成员名单 - 二进制值是否足够? 和线 -1 特征 1:1 特征 2:1 特征 4:1 ... 对于 known_terms_of_interest 字典中其他类的所有成员?

2) 测试文档输入是否应该只包含在 known_terms_of_interest 字典中找到的术语?

3) 线性正确吗? -C 1 ? 还是因为某些 RBF 中的术语很少?

似乎示例以预处理文件而不是原始文本开头;所以我错过了关键的设置放置步骤,因为文档进入了边距等的描述。

【问题讨论】:

    标签: svm libsvm liblinear


    【解决方案1】:

    1) 1 个类别 SVM 的训练输入是否应该是一组行 有 1 个 feature3:1 feature5:1 ... 对于积极的成员,其中 特征是类成员列表中的一个术语/短语 - 是二进制的 价值足够吗?和 -1 feature1:1 feature2:1 feature4:1 的行... 对于字典中其他类的所有成员 known_terms_of_interest?

    如果您的“featureX”是一个自然数(您的单词/短语的索引),那么您刚刚描述了一组有效的单词表示。这是最基本的文本分类方法,但它应该可以工作(在某种意义上——它是正确的)

    2) 测试文档输入是否应该只包含在 known_terms_of_interest 字典中找到的术语?

    它们必须仅包含在训练阶段看到的单词/短语的特征(如前所述 - 作为索引)。如果您提供以前从未见过的功能,libsvm 将无法运行。

    3) 线性正确吗? -C 1 ?还是因为某些 RBF 中的术语很少?

    此类问题没有答案,必须使用一些泛化测试技术(如交叉验证)来拟合内核类型和 C 值(以及 RBF 中的 gamma)。

    【讨论】:

    • 您是否希望添加词频数据来改进分类? 160 个类中的 16,000 个术语/短语是明确的,所以我希望找到或没有二进制文件就足够了。
    • 这会将 Set of Words 更改为 Bag of Words,这是最基本的方法之一。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多