【问题标题】:svm file format in wekaweka中的svm文件格式
【发布时间】:2017-05-10 21:04:19
【问题描述】:

我想在 weka 中使用 svm (smo) 对文本进行分类。我拥有的文件包含一些句子(波斯语)和每个句子前面的一个单词,它显示了它的类。问题是:我应该将这些句子更改为二进制向量并将这些向量作为输入提供给 weka,还是仅通过在 weka 本身中选择“字符串到单词向量”将句子转换为向量就足够了?

示例文件:

https://www.dropbox.com/s/ohpyortve8jbwhe/shoor.arff?dl=0

【问题讨论】:

  • 这两个选项你试过了吗?它们中的任何一个似乎比另一个更好(或根本不起作用)?
  • @etov,我尝试了第二个。 (句子作为输入)。它会返回答案,但我不知道它是否正确。对于第一个我不知道,根据什么因素我应该将单词更改为矢量。其实我也不知道哪个是科学的。
  • Weka 中有 StringToWordVector 转换器,可以做你想做的事。至于这是否科学,不如问stats.stackoverflow.com

标签: machine-learning nlp weka


【解决方案1】:

虽然它可以在 weka 中选择“字符串到词向量”,但最好根据 1000 个最常用词或任何其他特征将句子更改为向量。它工作得更快。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2013-01-26
    • 2016-10-30
    • 2015-03-15
    • 2014-05-01
    • 2016-10-29
    • 2017-10-01
    • 2013-08-26
    • 2021-11-24
    相关资源
    最近更新 更多