一个语言模型的perplexity怎么可能在0到1之间呢？

How can the perplexity of a language model be between 0 and 1?

在 Tensorflow 中，我得到类似 0.602129 或 0.663941 的输出。似乎接近 0 的值意味着更好的模型，但似乎应该将困惑度计算为 2^loss，这意味着损失为负。这没有任何意义。

这对我来说意义不大。困惑度计算为 2^entropy。熵是从 0 到 1。所以你的结果 < 1 没有意义。

我建议你看看你的模型是如何计算困惑度的，因为我怀疑这可能有误。