【问题标题】:Unsupervised Learning in R? Classify Matrices - what is the right package? [closed]R中的无监督学习?分类矩阵 - 什么是正确的包? [关闭]
【发布时间】:2011-12-16 21:00:34
【问题描述】:

最近我看了很多斯坦福搞笑的Open Classroom's视频讲座。特别是关于无监督机器学习的部分引起了我的注意。不幸的是,如果它可能变得更有趣,它就会停止。

基本上,我希望通过无监督算法对离散矩阵进行分类。这些矩阵只包含相同范围的离散值。假设我有 1000 个 20x15 矩阵,其值范围为 1-3。我刚开始阅读文献,我觉得图像分类要复杂得多(颜色直方图),而且我的案例只是对那里所做的事情的简化。

我还查看了Machine LearningCluster Cran 任务视图,但不知道从哪里开始使用实际示例。

所以我的问题是:哪个包/算法将是开始在 R 中尝试和解决问题的好选择?

编辑: 我意识到我可能不够精确:我的矩阵包含离散选择数据——所以平均聚类可能(!)不是正确的想法。我确实理解你所说的关于向量和观察的内容,但我希望有一些函数可以接受矩阵或 data.frames,因为随着时间的推移我有几个观察结果。

编辑2: 我意识到,专注于分类数据的无监督分类的包/功能介绍是目前对我最有帮助的。

【问题讨论】:

  • kmeans in library(class)hclust - 这是两个基本的。
  • 这也适用于分类数据吗?
  • @ran2:任何聚类算法都适用于具有正确设置的分类数据。使用 1-of-K 编码是个好主意,如果您的聚类包提供多个距离指标,您可能想尝试 L1 距离而不是欧几里得。
  • @larsmans,谢谢!您对刚刚解释的内容有很好的阅读/开始吗?
  • @ran2:我的大部分机器学习知识来自实践和与同事的讨论。不过,我敢打赌,您可以在 ESL 中找到很多信息。

标签: r machine-learning cluster-analysis unsupervised-learning


【解决方案1】:

...通过无监督算法对离散矩阵进行分类

您的意思一定是对它们进行聚类。分类通常由监督算法完成。

我觉得图像分类要复杂得多(颜色直方图),而且我的案例是对那里所做工作的简化

如果不知道您的矩阵代表什么,就很难判断您需要哪种算法。但一个起点可能是展平您的 20*15 矩阵以生成长度为 300 的向量;这样一个向量的每个元素都将是一个特征(或变量)以作为聚类的基础。这是 ML 包(包括您链接到的 Cluster 包)必须工作的方式:“在矩阵或数据框的情况下,每一行对应一个观察值,并且 每列对应一个变量。”

【讨论】:

  • 抱歉不准确。现在编辑我的帖子。
  • 从历史上看,现在通常所说的聚类曾经被称为分类。甚至还有一本相当有名的教科书同名:amazon.com/…
【解决方案2】:

到目前为止,我从cluster 包中分别找到了daisy 参数“gower”,它引用Gower's similarity coefficient 来处理多种数据模式。 Gower 似乎是一个相当唯一的距离度量,但它仍然是我发现用于分类数据的。

【讨论】:

    【解决方案3】:

    【讨论】:

    • 谁为此 +1 了?我不会投反对票,因为你们只是想帮助我掌握这一点。我的意思是我刚刚在我的原始帖子中发布了该链接。如果它的意思是说 RTFM,那么准确地写就是诚实的。
    • 我没有注意到您的原始帖子中引用了 CRAN ML 站点....!
    • 别担心 :) 我不是在责怪你,只是想知道随机向上。与此同时,我得到了相当多的信息,但相对(与其他 R 问题相比)很难找到一个起点。周围真的太多了——特别是如果你不知道你在找什么。确实找到了一些包,希望以后能学到足够的东西在这里总结一下。
    猜你喜欢
    • 2010-12-22
    • 2015-03-17
    • 2019-06-04
    • 2014-04-20
    • 2021-03-04
    • 2012-07-01
    • 2013-03-24
    • 2019-02-20
    • 2013-09-27
    相关资源
    最近更新 更多