关于信息和熵定义的性质
On the nature of Information and Entropy definitions
我正在查看香农对内在信息和熵的定义("message")。
老实说,我无法直观地理解香农为什么用对数来定义这两者(除了令人满意的 "split multiplication into sum" 属性 对数,这确实是可取的)。
任何人都可以帮我解释一下吗?
谢谢。
我相信当香农提出香农熵的想法时,他正在贝尔实验室工作:他的研究目标是用位(即 0 和 1)最好地编码信息。
这是log2的原因:它与消息的二进制编码有关。如果在电信线路上传输可以取 8 个不同值的数字,则需要长度为 3 位(log2(8) = 3
)的信号来传输这些数字。
香农熵是对消息的每个字符进行编码所需的最少位数(对于以任何字母表编写的任何消息)。
让我们举个例子。我们有以下消息要用位编码:
"0112003333"
。
消息的字符在 {0,1,2,3}
中,因此我们最多需要 log2(4) = 2
位来编码此消息的字符。例如,我们可以使用以下方式对字符进行编码:
0 would be coded by 00
1 would be coded by 01
2 would be coded by 10
3 would be coded by 11
然后消息将被编码为:"00010110000011111111"
然而,如果我们选择只用一位编码最频繁出现的字符,用两位编码另一个字符,我们可以做得更好:
0 would be coded by 0
1 would be coded by 01
2 would be coded by 10
3 would be coded by 1
然后消息将被编码为:"0010110001111"
所以"0112003333"
的熵在1到2之间(更准确的说是1.85)
我正在查看香农对内在信息和熵的定义("message")。 老实说,我无法直观地理解香农为什么用对数来定义这两者(除了令人满意的 "split multiplication into sum" 属性 对数,这确实是可取的)。
任何人都可以帮我解释一下吗?
谢谢。
我相信当香农提出香农熵的想法时,他正在贝尔实验室工作:他的研究目标是用位(即 0 和 1)最好地编码信息。
这是log2的原因:它与消息的二进制编码有关。如果在电信线路上传输可以取 8 个不同值的数字,则需要长度为 3 位(log2(8) = 3
)的信号来传输这些数字。
香农熵是对消息的每个字符进行编码所需的最少位数(对于以任何字母表编写的任何消息)。
让我们举个例子。我们有以下消息要用位编码:
"0112003333"
。
消息的字符在 {0,1,2,3}
中,因此我们最多需要 log2(4) = 2
位来编码此消息的字符。例如,我们可以使用以下方式对字符进行编码:
0 would be coded by 00
1 would be coded by 01
2 would be coded by 10
3 would be coded by 11
然后消息将被编码为:"00010110000011111111"
然而,如果我们选择只用一位编码最频繁出现的字符,用两位编码另一个字符,我们可以做得更好:
0 would be coded by 0
1 would be coded by 01
2 would be coded by 10
3 would be coded by 1
然后消息将被编码为:"0010110001111"
所以"0112003333"
的熵在1到2之间(更准确的说是1.85)