为什么在 Baum Welch 算法中使用隐马尔可夫模型与马尔可夫模型

Why use hidden Markov model vs. Markov model in Baum Welch algorithm

所以我正在尝试构建 Baum Welch 算法来进行词性标注以供练习。但是,我对使用隐马尔可夫模型与马尔可夫模型感到困惑。因为看起来你正在失去从一个状态到另一个状态的上下文。由于在移动到下一个状态时不考虑上一个状态的输出。难道只是为了省内存?

编辑:为清楚起见添加了示例

例如,如果两个状态 A 和 B 输出 0 或 1,则每个状态将有 4 个状态转换和 2 个观察可能性,如果混合每对传入转换,则可以将其制成 8 个转换与它的国家的观察概率。但我的挂断是为什么不最初训练一台机器有四个状态 {(A,1),(B,1),(A,2),(B,2)} 有 16 个转换。我对 nlp 很陌生,所以我想知道我是否不知道一些算法冗余,如果没有更难的数学就很难看到。

因为当最后一个 A 是 1 对 2 时,似乎丢失了转换的信息。但我想知道训练算法是否可能不需要该信息。

https://en.wikipedia.org/wiki/Baum%E2%80%93Welch_algorithm

感谢提供信息。

这不仅仅是为了节省内存,而是为了提供更好的真实情况模型。在文本的情况下,你相信有一个潜在的语法说这个词被用作名词,那个词被用作动词,但你没有得到这样说的标签,它不是'数据总是显而易见的。例如。 - 看看我刚刚输入的内容,better 是 "a better model" 中的形容词,但如果我使用堆栈溢出来改善自己,我只是将 better 用作动词。因此,无论是形容词还是动词更好是一个隐藏状态,现实模型将反映这一点。

隐马尔可夫模型也足够灵活,如果您真的没有任何隐状态,您可以创建一种退化的隐马尔可夫模型来反映这一点。例如,如果每个隐藏状态只能产生一种可能的输出,并且没有两个隐藏状态可以产生相同的输出,那么你就有了一个隐藏马尔可夫模型,在这个模型中你总是可以从输出中预测所谓的隐藏状态,反之亦然反之亦然。拟合它的参数会很容易,但它可能不会像适当的隐马尔可夫模型那样善于建模现实。