回归树还是分类树？多个分类输入和数字输出答案

【问题标题】：Regression Tree or Classification tree? multiple categorical inputs and numeric output回归树还是分类树？多个分类输入和数字输出
【发布时间】：2015-11-23 00:21:28
【问题描述】：

它在统计文档中说：分类树给出名义上的响应，例如“真”或“假”。回归树给出数字响应。我正在尝试构建决策树。我正在使用数字（输出）和非数字数据（输入）。我认为分类树比回归树更合适，或者（因为回归树似乎只适用于数字数据）。是否可以使用非数字数据来预测数字数据？如果可以，我怎么能在 R 中做到这一点？分类树适合是正确的选择吗？

谢谢你:)

【问题讨论】：

标签： r tree classification

【解决方案1】：

“数值响应”这个词有点笼统。数字可以是取值从 0 到无穷大（例如用户数、数量、距离）的变量，但数字也可以是取值 1 或 0（表示是/否、男性/女性）甚至值 1,2,3（代表选项 1、选项 2、选项 3）。最好将第一种情况描述为比例/连续变量，第二种情况描述为二元，第三种情况描述为分类。

第一种情况可以通过回归树（基于连续变量的数值响应）来处理，其他两种情况可以通过分类树（分类变量响应；它们可能返回分类值或每个分类值的概率。它是向上的给你）。

检查这些作为开始：http://www.statmethods.net/advstats/cart.html 和 http://www.rdatamining.com/docs/regression-and-classification-with-r

【讨论】：

感谢 Antonios，但我应该如何处理分类自变量？数据格式如下：日、HPorROS、设备站点名称（是输入）、CTR（输出），所以正如你所说，自变量是分类的（有很多级别），输出变量（CTR）是连续的。
分类自变量不是问题，因为树会以与线性模型类似的方式处理它们。真正的问题是，如果您至少有一个独立变量有很多级别（与您拥有的行数相比），这可能需要提前另一个过程，以减少级别数量的方式重新组合这些变量。
只是为了更清楚地说明如何使用自变量：案例（a）您有一个自变量“年龄”在 [15, 50] 范围内连续。该模型可能会将您的变量分成不同的范围，例如 [15,20]、(20,50]。情况 (b) 您有一个自变量“年龄”作为组 {15-18、19-30、31-50}。该模型可能会将您的变量分成不同的组，例如单独的 15-18 和 19-30、31-50 一起。