具有分类变量的一维聚类
1D Clustering with categorical variables
我尝试分析日志操作。为了分析,我想了解用户是处于 page/navigation 模式还是处于问答模式(确定哪种操作更普遍)。模式由操作频率给出,如下图所示。
我想找到 - 如果在数据中可用 - 阶段发生变化的边界。当然,总会有一些异常值(例如,考虑图中 1452 处的测验点)。
我试过 Jenks breaks 这件事:红色是基于导航点的休息时间,蓝色是基于测验点的休息时间。我必须设置一个固定数量的垃圾箱,我设置为 3。因此,这对我的问题来说似乎不是很令人满意。
我也考虑过KDE,但是也不知道怎么拆分。
有什么方法可以拆分以上数据,告诉我在2011到2049之间的某个地方(即导航的最后一个点和测验的第一个点)相位发生了变化,在4189和4189之间的某个地方4199(测验的最后一个点和导航的第一个点)?
我正在使用 Python 进行数据分析(以及 pandas
、numpy
等)。
使用 KDE。但是少考虑 KMeans ("splits"),多考虑 density.
如果状态A的密度较大,则表示用户处于模式A?
所以只比较那里的密度。尝试绘制相同多数密度的区间。
我尝试分析日志操作。为了分析,我想了解用户是处于 page/navigation 模式还是处于问答模式(确定哪种操作更普遍)。模式由操作频率给出,如下图所示。
我想找到 - 如果在数据中可用 - 阶段发生变化的边界。当然,总会有一些异常值(例如,考虑图中 1452 处的测验点)。
我试过 Jenks breaks 这件事:红色是基于导航点的休息时间,蓝色是基于测验点的休息时间。我必须设置一个固定数量的垃圾箱,我设置为 3。因此,这对我的问题来说似乎不是很令人满意。
我也考虑过KDE,但是也不知道怎么拆分。
有什么方法可以拆分以上数据,告诉我在2011到2049之间的某个地方(即导航的最后一个点和测验的第一个点)相位发生了变化,在4189和4189之间的某个地方4199(测验的最后一个点和导航的第一个点)?
我正在使用 Python 进行数据分析(以及 pandas
、numpy
等)。
使用 KDE。但是少考虑 KMeans ("splits"),多考虑 density.
如果状态A的密度较大,则表示用户处于模式A?
所以只比较那里的密度。尝试绘制相同多数密度的区间。