一个语言模型的perplexity怎么可能在0到1之间呢?

How can the perplexity of a language model be between 0 and 1?

在 Tensorflow 中,我得到类似 0.602129 或 0.663941 的输出。似乎接近 0 的值意味着更好的模型,但似乎应该将困惑度计算为 2^loss,这意味着损失为负。这没有任何意义。

这对我来说意义不大。困惑度计算为 2^entropy。熵是从 0 到 1。所以你的结果 < 1 没有意义。

我建议你看看你的模型是如何计算困惑度的,因为我怀疑这可能有误。