【发布时间】:2018-04-02 23:06:19
【问题描述】:
我正在尝试为从 Kaggle 获得的数据集制作决策树。 由于我没有任何处理现实数据集的经验,因此我不知道如何处理数据的清理、集成和缩放(主要是缩放)。
例如,假设我有一个包含实数的特征。因此,我想通过将其扩展到特定数量的组(用于制作决策树)来将该功能变为分类数据之类的东西。
在这种情况下,我不知道有多少组数据对于决策树来说是合理的。 我确信这取决于特征数据的分布和目标数据集中唯一值的数量,但我不知道如何通过查看分布和目标数据集找到正确的猜测。 我最好的猜测是将特征的数据划分为与目标数据集的唯一值数量相似的数量。 (我什至不知道这是否有意义..)
当我从学校学习时,我已经为每个特征提供了 2-5 个分类数据,因此我不必担心,但现实生活与学校完全不同。
请帮帮我。
【问题讨论】:
-
现实生活中的分类可能非常严格。在没有标签的情况下,也可以考虑无监督学习。
标签: classification data-mining decision-tree data-science kaggle