为什么在 Baum Welch 算法中使用隐马尔可夫模型与马尔可夫模型

Why use hidden Markov model vs. Markov model in Baum Welch algorithm

所以我正在尝试构建 Baum Welch 算法来进行词性标注以供练习。但是，我对使用隐马尔可夫模型与马尔可夫模型感到困惑。因为看起来你正在失去从一个状态到另一个状态的上下文。由于在移动到下一个状态时不考虑上一个状态的输出。难道只是为了省内存？

编辑：为清楚起见添加了示例

例如，如果两个状态 A 和 B 输出 0 或 1，则每个状态将有 4 个状态转换和 2 个观察可能性，如果混合每对传入转换，则可以将其制成 8 个转换与它的国家的观察概率。但我的挂断是为什么不最初训练一台机器有四个状态 {(A,1),(B,1),(A,2),(B,2)} 有 16 个转换。我对 nlp 很陌生，所以我想知道我是否不知道一些算法冗余，如果没有更难的数学就很难看到。

因为当最后一个 A 是 1 对 2 时，似乎丢失了转换的信息。但我想知道训练算法是否可能不需要该信息。

https://en.wikipedia.org/wiki/Baum%E2%80%93Welch_algorithm

感谢提供信息。

这不仅仅是为了节省内存，而是为了提供更好的真实情况模型。在文本的情况下，你相信有一个潜在的语法说这个词被用作名词，那个词被用作动词，但你没有得到这样说的标签，它不是'数据总是显而易见的。例如。 - 看看我刚刚输入的内容，better 是 "a better model" 中的形容词，但如果我使用堆栈溢出来改善自己，我只是将 better 用作动词。因此，无论是形容词还是动词更好是一个隐藏状态，现实模型将反映这一点。

隐马尔可夫模型也足够灵活，如果您真的没有任何隐状态，您可以创建一种退化的隐马尔可夫模型来反映这一点。例如，如果每个隐藏状态只能产生一种可能的输出，并且没有两个隐藏状态可以产生相同的输出，那么你就有了一个隐藏马尔可夫模型，在这个模型中你总是可以从输出中预测所谓的隐藏状态，反之亦然反之亦然。拟合它的参数会很容易，但它可能不会像适当的隐马尔可夫模型那样善于建模现实。

为什么在 Baum Welch 算法中使用隐马尔可夫模型与马尔可夫模型

Why use hidden Markov model vs. Markov model in Baum Welch algorithm

algorithm

nlp

markov

hidden-markov-models