<s> 和 </s> 在计算 unigram LM 时如何处理?

how to treat with <s> and </s> in calculating unigram LM?

我是 NLP 的初学者,我很困惑如何处理 <s></s> 符号来计算 unigram 模型的计数?我应该计算它们还是忽略它们?

如果我正确理解 <s></s> 表示特殊(假)unigrams 作为每个文本的第一个和最后一个 unigrams(实际上,先前后后),然后它们不需要 unigrams,因为任何字符串都包含这些 un​​igrams,因此它们不提供额外信息。

这种特殊的 unigrams 在高阶 n-grams 的情况下很有用:例如,它允许从像 hello 这样的 1-word 字符串中提取 2 个二元组:<s> hellohello </s> 或 3 个八卦:<s0> <s1> hello<s1> hello </s1>hello </s1> </s0>.