【问题标题】:1D Clustering with categorical variables具有分类变量的一维聚类
【发布时间】:2020-02-13 07:56:52
【问题描述】:

我尝试分析日志操作。为了分析,我想了解用户是处于页面/导航模式还是处于测验模式(确定哪种操作更普遍)。模式由操作的频率给出,如下图所示。

我想找到(如果数据中有的话)阶段发生变化的界限。当然,总会有一些异常值(例如,考虑图中 1452 处的测验点)。

我为此尝试了 Jenks 休息:红色是基于导航点的休息,蓝色是基于测验点的休息。我必须设置固定数量的垃圾箱,我将其设置为 3。因此,这似乎对我的问题不太满意。

我也考虑过 KDE,但我也不知道如何执行拆分。

有什么方法可以拆分上述数据,告诉我在 2011 年和 2049 年之间(即导航的最后一点和测验的第一点)之间有一个阶段的变化,在 4189 和 4199 之间的某个地方(测验的最后一点和导航的第一点)?

我正在使用 Python 进行数据分析(以及 pandasnumpy 等)。

【问题讨论】:

    标签: python cluster-analysis data-science data-partitioning


    【解决方案1】:

    使用 KDE。但少考虑 KMeans(“拆分”),多考虑 密度

    如果状态A的密度更大,那么有用户处于模式A吗?

    所以只需比较那里的密度。尝试绘制相同多数密度的区间。

    【讨论】:

    • 我尝试了这个,但不知何故,1452 处的单点打破了一切,即,在那个点进行测验的密度要大得多。有没有办法解决这个问题?
    • 那么你的 KDE 可能不正确。单点不应主导结果。
    猜你喜欢
    • 2020-04-18
    • 1970-01-01
    • 1970-01-01
    • 2012-07-16
    • 1970-01-01
    • 2019-12-16
    • 1970-01-01
    • 1970-01-01
    • 2017-08-19
    相关资源
    最近更新 更多