【问题标题】:How to categorize continuous data?如何对连续数据进行分类?
【发布时间】:2012-05-16 19:34:54
【问题描述】:

我有两个因连续变量,我想使用它们的组合值来预测第三个二元变量的值。我如何对值进行离散化/分类?我不是在寻找聚类算法,我对获得“有意义的”离散类别特别感兴趣,我随后可以在贝叶斯分类器中使用。 指向论文、书籍、在线课程,非常感谢!

【问题讨论】:

    标签: machine-learning classification


    【解决方案1】:

    这是机器学习的本质,也是研究最多的问题之一。

    最小二乘回归、逻辑回归、SVM、随机森林广泛用于这类问题,称为二元分类。

    如果您的目标是对数据进行实用分类,可以使用多个库,例如 python 中的 Scikits-learn 和 java 中的 weka。他们有很好的文档。

    但如果您想了解机器学习的内在本质,只需搜索(此处或在 google 上)机器学习资源。

    【讨论】:

    • 我已经编辑了这个问题,以便更清楚地说明它是关于分类的,而不是一般的分类。
    【解决方案2】:

    如果您想成为真正的书呆子,请生成一堆不同的可能离散化,然后在其上训练分类器,然后通过特征表征离散化,然后在其上运行分类器,看看哪种离散化是最好的!?

    一般来说,离散化更多的是一门艺术,并且对输入变量范围的含义有很好的理解。

    【讨论】:

      猜你喜欢
      • 2012-04-07
      • 2017-04-24
      • 2018-12-26
      • 2023-04-06
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-08-31
      • 1970-01-01
      相关资源
      最近更新 更多