【问题标题】:Looking for approaches to categorize objects based on their properties寻找基于对象属性对对象进行分类的方法
【发布时间】:2010-10-31 17:51:40
【问题描述】:

我有一组大约 10K 的对象,每个对象都有大约 150 个不同的属性,其中大约四分之一是多值的和/或与其他属性相关的。

我有一组大约 120 个类别,我想将这些对象分类到其中,每个类别都被定义为一个“模板”对象。如果一个实例与模板完全匹配,则该对象显然属于该类别……但是,实际上只有大约 10% 的对象具有完全匹配的模板。因此,我希望能够根据对象与类别的相似性对对象进行评分,并将它们分类为最佳匹配。我还想识别非常相似的对象集群,表明可能是新的/改进的类别。

这似乎是 Weka、RapidMiner 或其他机器学习/聚类/分类系统的工作。但是,我很难找到该领域的良好介绍材料,因此无法说明在这种情况下使用这些工具需要付出多少努力。鉴于这可能是一个持续的需求,我想使用一些可以让我轻松更改分析方法、权重等的东西。

想法?

【问题讨论】:

    标签: cluster-analysis classification


    【解决方案1】:

    让我们谈谈..
    如果您的职责是对这些对象进行分类,那么您将能够手动对它们发疯!

    我正在剖析一个类似的数据集,但总是回到相同的数据集点...这些对象〜基本上〜相同。

    将它们分开的模糊逻辑是圣杯..但圣杯是模糊的...:(
    你能做什么? ... 给您的老板一些模糊的公式?这将持续一段时间..

    您可以花费一生的时间来寻找模式,但这可能会让您失败 - 为什么不尝试将视角转移到您的事情上可以量化吗?专注于产出..

    【讨论】:

      【解决方案2】:

      RapidMiner 带有集成的在线教程。只需启动 RapidMiner,然后转到“帮助”,然后转到“RapidMiner 教程”。 Yon 还可以从 Rapid-I 网页下载免费的 PDF RapidMiner 教程。 Rapid-I 网页上还有一个免费的 RapidMiner 介绍性小视频,如果您查看 Rapid-I 网页的服务部分,还有许多 RapidMiner 培训课程。

      【讨论】:

        【解决方案3】:

        你要开发的是基于案例的推理系统,一种知识工程引擎。

        查看 myCBR 和 Protege。 Protege 是斯坦福大学的本体工程引擎,myCBR 是 Thomas R. Roth-Berghofer 开发的基于案例的推理系统。

        MyCBR 插入 Protege,这将完全满足您的需求。

        重要提示:

        1. 以 CSV 格式保存您的数据,并确保它非常干净 - 如果它不是完美无缺的,那么 Protege/myCBR 就会出现问题。
        2. 在尝试导入任何内容之前,请阅读 myCBR 的说明,因为如果不这样做,您会感到沮丧。
        3. 导出数据比较困难,但理论上可以将结果导出为 Java 模块。 Protege 是开源的,myCBR 也是如此 - 所以我相信没有许可费。
        4. 您可以为您的类别设置权重,这可能对您有额外的用处。

        门徒:

        http://protege.stanford.edu/

        我的CBR:

        http://mycbr-project.net/

        【讨论】:

          猜你喜欢
          • 2012-12-17
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多