【发布时间】:2017-05-10 21:04:19
【问题描述】:
我想在 weka 中使用 svm (smo) 对文本进行分类。我拥有的文件包含一些句子(波斯语)和每个句子前面的一个单词,它显示了它的类。问题是:我应该将这些句子更改为二进制向量并将这些向量作为输入提供给 weka,还是仅通过在 weka 本身中选择“字符串到单词向量”将句子转换为向量就足够了?
示例文件:
【问题讨论】:
-
这两个选项你试过了吗?它们中的任何一个似乎比另一个更好(或根本不起作用)?
-
@etov,我尝试了第二个。 (句子作为输入)。它会返回答案,但我不知道它是否正确。对于第一个我不知道,根据什么因素我应该将单词更改为矢量。其实我也不知道哪个是科学的。
-
Weka 中有 StringToWordVector 转换器,可以做你想做的事。至于这是否科学,不如问stats.stackoverflow.com
标签: machine-learning nlp weka