【问题标题】:Is there a good and easy way to visualize high dimensional data?有没有一种简单易用的方法来可视化高维数据?
【发布时间】:2017-11-15 10:24:27
【问题描述】:

有人能告诉我是否有一种很好(简单)的方法来可视化高维数据吗?我的数据目前是 21 维,但我想看看它是密集还是稀疏。有没有实现这一点的技术?

【问题讨论】:

  • 我不知道答案,但是,我可以告诉你,优化这是一个非常热门的研究课题。
  • 我建议使用 Tableau 或 Spotfire 等可视化工具。即便如此,21 维还是很多的,所以你可能需要执行某种降维技术以使其达到有意义的水平tableausoftware.com/public

标签: python language-agnostic graph machine-learning


【解决方案1】:

Parallel coordinates 是一种流行的高维数据可视化方法。

哪种可视化最适合您的数据,具体取决于其特征——不同维度的相关性如何?

【讨论】:

    【解决方案2】:

    如果维度相关,Principal component analysis 可能会有所帮助。

    【讨论】:

      【解决方案3】:

      我要搜索的流行词是multidimensional scaling。它是一种将高维空间投影到低维空间(2 或 3 维)的技术,使得在整个空间中相近的点在投影中也相近。

      它通常用于可视化聚类算法的输出(即,如果您的聚类在 MDS 投影中是紧凑的,那么它们很有可能也在完整空间中)。

      编辑:这不一定有助于确定数据是密集还是稀疏,因为您会丢失投影中的比例,但它会显示它是均匀的还是块状的(也许这就是您的意思)。

      【讨论】:

        【解决方案4】:

        不确定您希望从数据中看到什么样的模式。 t-SNE 及其更快的变体 Barnes-Hut-SNE 在可视化高维数据的相关概念组方面做得非常好。它可以通过 R 获得。

        有一个简短的教程介绍如何将它用于处理大约 300 维的高维数据。 http://www.codeproject.com/Tips/788739/Visualizing-High-Dimensional-Vector-using-T-SNE-wi

        【讨论】:

          【解决方案5】:

          我一直在寻找可视化高维数据的方法,发现这个t-SNE technique 已经被有效地使用了。也可以帮助其他人。

          【讨论】:

          • 非常垃圾邮件
          • 什么是,@Cory?我在尝试搜索我正在使用的高维数据的良好可视化时发现了这个问题,并且我链接的 t-SNE 页面是一个很好的开源软件,我认为这将有益于其他正在寻找的人
          • 对不起,第一次发帖,一个链接,我看了看页面,它看起来很可信,但我看到无数垃圾邮件帖子都有相同的堆积。对不起,我的困惑,你能编辑你的帖子,这样我就可以改变投票了。
          【解决方案6】:

          看看http://www.ggobi.org(游览、平行坐标、散点图矩阵)可用于实值变量。也可以http://cranvas.org 获取最新消息。 R 中的旅游套餐。

          【讨论】:

            【解决方案7】:

            尝试使用http://hypertools.readthedocs.io/en/latest/

            HyperTools 是一个用于在 Python 中可视化和操作高维数据的库。

            【讨论】:

              【解决方案8】:

              星型架构。

              http://en.wikipedia.org/wiki/Star_schema

              适用于高维数据。

              如果事实表的基数接近维度大小的乘积,则说明数据密集。

              如果事实表的基数小于维度大小的乘积,则说明数据稀疏。

              在中间你有一个判断电话。

              【讨论】:

                【解决方案9】:

                curios.IT 数据探索软件专为高维数据的可视化而设计:数据显示为 3D 对象的集合(每个数据组一个),最多可以同时显示 13 个变量。数据变量和视觉特征之间的关系比其他技术(如平行坐标)更容易记住。

                【讨论】:

                  猜你喜欢
                  • 2020-10-18
                  • 1970-01-01
                  • 2021-01-09
                  • 2020-01-25
                  • 2011-08-01
                  • 2013-11-24
                  • 2011-01-03
                  • 1970-01-01
                  • 1970-01-01
                  相关资源
                  最近更新 更多