在 EM 算法聚类中使用可变长度数据输入

Using variable length data inputs with EM algorithm clustering

我们有一组带有出租车位置的序列。我们希望通过考虑数据行中的顺序模式来对数据进行聚类。 例如: T1、T2、T3、T4 是行程,a、b、c、d、e 是地点集。 我们拥有的数据就像,

但问题是数据的长度是不可变的。我们如何使用 EM 对这些类型的数据进行聚类。由于它不接受可变长度数据,因此我们可以自定义它。

EM是一般原则。您可以将它与非常不同的 models.

一起使用

可能最流行的 EM 模型是高斯混合建模、GMM。

当然,如果您使用协方差,GMM 需要固定维度。

但是如果你使用其他模型,它没有理由不能使用可变长度向量。例如,有处理文本数据的EM变体,文本通常确实有不同的长度。