物理学与信息系统中的熵

Entropy in physics vs information systems

谁能通俗地解释一下物理学中的熵和信息系统中的熵的等价性或相似性?抱歉,我不是数学家,但我仍在尝试理解这些概念,以便更好地理解这些概念。我对物理学中的熵有一个概念,但我不明白什么时候有人说信息系统中的熵及其用途和应用。感谢您的宝贵时间。

信息熵(也称为香农信息)是对新信息的“惊奇”程度的度量。一个具有高熵的系统有一个很大的惊喜。低熵,小惊喜。

高熵的系统很难压缩,因为每一位都令人惊讶,所以必须记录下来。

低熵系统易于压缩,因为您可以根据您之前看到的内容预测接下来会发生什么。

Counter-intuitively,这意味着显示静态(白噪声)的电视呈现大量信息,因为每一帧都是随机的,而电视节目的信息相对较少,因为大多数帧都可以基于预测在前一帧。同样,一个好的随机数生成器的定义是具有非常高的 entropy/information/surprise.

这也意味着熵的量高度依赖于上下文。 pi 的数字具有非常高的熵,因为无法预测任意一位(假设 pi 为 normal)。但是如果我知道你会把圆周率的数字发给我,那么这些数字本身就有信息,因为我可以计算出所有的数字我自己。

所有这些都与密码学有关的原因是因为密码系统的目标是生成与随机无法区分的输出,也就是说它需要 low-entropy 信息并输出 high-entropy 信息。密码算法的输出不能比其 highest-entropy 输入具有更多的熵。 highest-entropy 输入是人类选择的密码的系统将是非常差的加密系统,因为它们非常可预测(信息很少;熵低)。一个好的密码系统将包括一个 high-entropy 值,如 well-seeded 和不可预测的随机数。如果这个随机数是可预测的(具有低熵),系统就会被削弱。

此时您必须小心,不要 over-analogize 介于热力学和信息熵之间。特别是,人们几乎只对热力学中的熵 梯度 感兴趣,而熵在信息论中被视为绝对值(以位为单位)。相反,信息熵有时被错误地认为是生成随机数时“耗尽”的一种能量形式。这在任何有用的方面都是不正确的,当然不像热能。

此外,密码学家使用熵这个词的方式与香农的使用方式并不完全相同。有关此问题的讨论,请参阅 Guesswork is not a substitute for Entropy

关于这如何适用于和不适用于更广泛的热力学(尤其是它如何适用于著名的麦克斯韦妖),我推荐 Wikipedia article 比较两种熵。