如何对连续数据进行分类？答案

【问题标题】：How to categorize continuous data?如何对连续数据进行分类？
【发布时间】：2012-05-16 19:34:54
【问题描述】：

我有两个因连续变量，我想使用它们的组合值来预测第三个二元变量的值。我如何对值进行离散化/分类？我不是在寻找聚类算法，我对获得“有意义的”离散类别特别感兴趣，我随后可以在贝叶斯分类器中使用。指向论文、书籍、在线课程，非常感谢！

【问题讨论】：

【解决方案1】：

这是机器学习的本质，也是研究最多的问题之一。

最小二乘回归、逻辑回归、SVM、随机森林广泛用于这类问题，称为二元分类。

如果您的目标是对数据进行实用分类，可以使用多个库，例如 python 中的 Scikits-learn 和 java 中的 weka。他们有很好的文档。

但如果您想了解机器学习的内在本质，只需搜索（此处或在 google 上）机器学习资源。

【讨论】：

【解决方案2】：

如果您想成为真正的书呆子，请生成一堆不同的可能离散化，然后在其上训练分类器，然后通过特征表征离散化，然后在其上运行分类器，看看哪种离散化是最好的！？

一般来说，离散化更多的是一门艺术，并且对输入变量范围的含义有很好的理解。

【讨论】：