【发布时间】:2016-08-19 05:49:41
【问题描述】:
我正在使用 Weka 的 IBk 对文本(推文)进行分类。我正在将训练和测试数据转换为向量空间,当我对测试数据进行分类时,最好的结果来自 K=1。训练数据和测试数据是分开的。为什么 K=1 给出最好的精度?
【问题讨论】:
-
您使用的向量空间是什么? n-gram 计数?
-
我正在通过 Weka 对其进行矢量化,并使用 Bigrams 作为标记器。
标签: classification weka knn