【问题标题】:Data structure for representing Decision Tree Induction表示决策树归纳的数据结构
【发布时间】:2012-12-26 18:32:33
【问题描述】:

目前,我参与了一些与数据挖掘相关的项目。而且,我必须使用以 GINIsplit 作为分割标准的决策树归纳将给定的数据集(.csv 格式)分类为不同的类。所有这些我一直在 java 平台上做的,没有使用任何工具,例如WEKA、ORANGE...等

我的查询是 - 什么是表示决策树的最佳数据结构,以便分类快速高效?而且,如果属性是名义的、数字的或有序的,是否有任何针对属性的优化技术,我的意思是,具体的技术?

提前致谢!

【问题讨论】:

    标签: java machine-learning data-mining decision-tree entropy


    【解决方案1】:

    好吧,如果您真的想获得最佳分类速度,请将您的决策树输出到....class。 IE。为树生成一个代码 sn-p,并编译它。这样,可以使用 Java Hotspot JRE 的本机速度执行评估。

    因为您可以在程序逻辑中编码决策树:

    if (attribute_x < 0.1) {
        switch(attribute_c) {
            case BANANA: {
                ...
    

    主要问题是,您希望在多大程度上进行这种优化。

    【讨论】:

    • 名义、序数属性如何...? @Anony-Mousse
    • 我说的是实现决策树的数据结构...独立于平台? @Anony-Mousse
    • 随你喜欢。属性 ID + 阈值/位掩码/选择列表并不是一个可能导致效率低下的大型数据对象。您是否分析并确定您的决策树数据结构效率低下?
    • 我的意思是我应该使用 B-tree、B+ 树还是简单的链表来实现 @Anony-Mousse
    • B- 和 B+-Tree 是 disk 数据结构。你会用什么作为排序键?!?我也没有在决策树中看到链接列表的用途。使用带有子节点的树节点类。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2012-03-06
    • 2022-01-20
    • 2017-06-01
    • 2019-10-02
    • 1970-01-01
    • 1970-01-01
    • 2019-12-23
    相关资源
    最近更新 更多