【问题标题】:Regression Tree or Classification tree? multiple categorical inputs and numeric output回归树还是分类树?多个分类输入和数字输出
【发布时间】:2015-11-23 00:21:28
【问题描述】:

它在统计文档中说:分类树给出名义上的响应,例如“真”或“假”。回归树给出数字响应。我正在尝试构建决策树。我正在使用数字(输出)和非数字数据(输入)。我认为分类树比回归树更合适,或者(因为回归树似乎只适用于数字数据)。是否可以使用非数字数据来预测数字数据?如果可以,我怎么能在 R 中做到这一点?分类树适合是正确的选择吗?

谢谢你:)

【问题讨论】:

    标签: r tree classification


    【解决方案1】:

    “数值响应”这个词有点笼统。数字可以是取值从 0 到无穷大(例如用户数、数量、距离)的变量,但数字也可以是取值 1 或 0(表示是/否、男性/女性)甚至值 1,2,3(代表选项 1、选项 2、选项 3)。最好将第一种情况描述为比例/连续变量,第二种情况描述为二元,第三种情况描述为分类。

    第一种情况可以通过回归树(基于连续变量的数值响应)来处理,其他两种情况可以通过分类树(分类变量响应;它们可能返回分类值或每个分类值的概率。它是向上的给你)。

    检查这些作为开始:http://www.statmethods.net/advstats/cart.htmlhttp://www.rdatamining.com/docs/regression-and-classification-with-r

    【讨论】:

    • 感谢 Antonios,但我应该如何处理分类自变量?数据格式如下:日、HPorROS、设备站点名称(是输入)、CTR(输出),所以正如你所说,自变量是分类的(有很多级别),输出变量(CTR)是连续的。
    • 分类自变量不是问题,因为树会以与线性模型类似的方式处理它们。真正的问题是,如果您至少有一个独立变量有很多级别(与您拥有的行数相比),这可能需要提前另一个过程,以减少级别数量的方式重新组合这些变量。
    • 只是为了更清楚地说明如何使用自变量:案例(a)您有一个自变量“年龄”在 [15, 50] 范围内连续。该模型可能会将您的变量分成不同的范围,例如 [15,20]、(20,50]。情况 (b) 您有一个自变量“年龄”作为组 {15-18、19-30、31-50}。该模型可能会将您的变量分成不同的组,例如单独的 15-18 和 19-30、31-50 一起。
    猜你喜欢
    • 1970-01-01
    • 2020-06-30
    • 1970-01-01
    • 2013-12-04
    • 2018-09-12
    • 2019-07-02
    • 2018-12-31
    • 2016-04-17
    • 1970-01-01
    相关资源
    最近更新 更多