为 hmmlearn 格式化数据

Formatting data for hmmlearn

我正在尝试使用 python 中的 hmmlearn 来拟合隐马尔可夫模型。我假设我的数据格式不正确,但是 hmmlearn 的文档很简单。直觉上我会将数据格式化为 n_observations x n_time_points x n_features 的 3 维数组,但 hmmlearn 似乎想要一个二维数组。

import numpy as np
from hmmlearn import hmm
X = np.random.rand(10,5,3)
clf = hmm.GaussianHMM(n_components=3, n_iter=10)
clf.fit(X)

这给出了以下错误:

ValueError: Found array with dim 3. Estimator expected <= 2.

有谁知道如何格式化数据以构建我想要的 HMM?

注意:以下所有内容均与hmmlearn当前未发布的0.2.0版本相关。 PyPI 上可用的版本 0.1.0 使用不同的 API 继承自 sklearn.hmm

fit 模型到多个序列,您必须提供两个数组:

  • X --- 来自所有序列的数据的串联,
  • lengths --- 序列长度数组。

我将尝试用一个例子来说明这些约定。考虑两个一维序列

X1 = [1, 2, 0, 1, 1]
X2 = [42, 42]

要将两个序列传递给 .fit 方法,我们需要先将它们连接成一个数组,然后计算长度数组

X = np.append(X1, X2)
lengths = [len(X1), len(X2)]

在单个时间序列观察的情况下,hmmlearn fit 方法期望数据位于二维列向量中,可以使用 reshape(-1,1):

X = np.array([1, 1, 0, -1, -1])
model = hmm.GaussianHMM(n_components=2, n_iter=100)
model.fit(X.reshape(-1,1))