具有分类变量的一维聚类答案

【问题标题】：1D Clustering with categorical variables具有分类变量的一维聚类
【发布时间】：2020-02-13 07:56:52
【问题描述】：

我尝试分析日志操作。为了分析，我想了解用户是处于页面/导航模式还是处于测验模式（确定哪种操作更普遍）。模式由操作的频率给出，如下图所示。

我想找到（如果数据中有的话）阶段发生变化的界限。当然，总会有一些异常值（例如，考虑图中 1452 处的测验点）。

我为此尝试了 Jenks 休息：红色是基于导航点的休息，蓝色是基于测验点的休息。我必须设置固定数量的垃圾箱，我将其设置为 3。因此，这似乎对我的问题不太满意。

我也考虑过 KDE，但我也不知道如何执行拆分。

有什么方法可以拆分上述数据，告诉我在 2011 年和 2049 年之间（即导航的最后一点和测验的第一点）之间有一个阶段的变化，在 4189 和 4199 之间的某个地方（测验的最后一点和导航的第一点）？

我正在使用 Python 进行数据分析（以及 pandas、numpy 等）。

【问题讨论】：

【解决方案1】：

使用 KDE。但少考虑 KMeans（“拆分”），多考虑密度。

如果状态A的密度更大，那么有用户处于模式A吗？

所以只需比较那里的密度。尝试绘制相同多数密度的区间。

【讨论】：