【发布时间】:2017-04-23 18:09:59
【问题描述】:
给定一个分类问题,训练数据如下:
input - output
--------------
A 100
B 150
C 170
..............
其中 A、B、C 是大数据集,每个都有 6 个变量和大约 5000 行。
问题是:我如何包装输入以对其他数据集输入使用分类算法,例如这些。
我尝试为每一行附加训练分类器的值并对其进行训练。对于一个新条目,每一行都会被分类,我会将平均值作为整个数据集的分类器。但是我使用朴素贝叶斯并没有很好的结果。
我应该继续使用其他分类器研究这种方法吗?我还可以考虑哪些其他选择?
编辑
来自 2 个事件的样本数据
OUT Var1 Var2 Var3 Var4 Var5 Var6
0 93 209.2 49.4 5451.0 254.0 206.0 37.7
1 344.9 217.6 14590.5 191.7 175.5 106.8
2 663.3 97.2 17069.2 144.4 2.8 59.9
3 147.4 137.7 12367.4 194.1 237.7 116.2
4 231.8 162.2 11938.4 71.3 149.1 116.3
OUT Var1 Var2 Var3 Var4 Var5 Var6
964 100 44.5 139.7 10702.5 151.4 36.0 17.9
966 59.8 148.9 3184.9 103.0 96.5 12.8
967 189.7 194.4 7569.6 49.9 82.6 55.2
969 158.5 88.2 2932.4 159.8 232.8 125.2
971 226.4 155.2 3156.3 85.0 4010.5 69.9
对于类似的数据集,我需要预测out值。我有很多这样的样本。
对所有行应用相同的值是否正确?
【问题讨论】:
-
什么?我建议阅读这样的内容:An introduction to machine learning in scikit-learn。您似乎缺少机器学习分类的一些基本原则。但是,是的,您可以尝试其他分类器。
-
不是分类器的问题,问题是:如何处理数据。我正在处理的变量不是字符串或数字,它们是整个数据集。
-
这也很有用:Classifier comparison
标签: python machine-learning classification bayesian naivebayes