【发布时间】:2012-12-25 20:02:20
【问题描述】:
我有一个包含大约 100,000 条关于客户购买模式的记录的数据集。数据集包含
- 年龄(从 2 到 120 的连续值),但我也计划按年龄范围分类。
- 性别(0 或 1)
- 地址(只能是六种,我也可以用1到6的数字表示)
- 偏好店铺(只能来自 7 家店铺),这是我的班级问题。
所以我的问题是根据客户的年龄、性别和位置对偏好商店进行分类和预测。我尝试过使用朴素树和决策树,但它们的分类准确率在下面有点低。
我也在考虑逻辑回归,但我不确定性别和地址等离散值。但是,我也假设 SVM 有一些内核技巧,但还没有尝试过。
那么您建议使用哪种机器学习算法来提高这些功能的准确性。
【问题讨论】:
-
你可能需要更多的功能,你试过
random forests了吗? -
你说得对,我缺乏特征,但我拥有的数据集没有太多特征可以帮助我。所以我只想根据这些功能提高准确性
-
如果没有至少一些进一步的信息,这是不可能回答的。特征如何区分特征空间中的类?班级分布如何?特征值的分布是什么?即使你发布了整个数据集,我们也只能做你自己能做的事情——试试看什么有效。
标签: machine-learning data-mining classification