为什么 BigInteger 将“80”(十六进制)解析为两个字节?
Why does BigInteger parse "80"(hex) to two bytes?
我想将十六进制字符串转换为字节数组。我认为使用 BigInteger
是个好主意。但是对于大于 7F
的值,它会产生意想不到的结果。
我的代码:
var bytes = new BigInteger("80", 16).toByteArray();
for (var b : bytes) System.out.println(b);
它输出:
0
-128
为什么这会产生 两个 字节?
我原以为 00
到 FF
会产生一个字节,0100
到 FFFF
会产生两个字节,依此类推。
旁注:第一个字节似乎很重要:
new BigInteger(new byte[]{ (byte)0x80}); // produces -128 (negative!)
new BigInteger(new byte[]{ 0, (byte)0x80}); // produces 128
new BigInteger(new byte[]{0, 0, (byte)0x80}); // produces 128
toByteArray()
方法 returns 包含二进制补码的字节数组
这个 BigInteger 的表示。字节数组将采用大端字节顺序
方法内部看起来像:
public byte[] toByteArray() {
int byteLen = bitLength()/8 + 1;
byte[] byteArray = new byte[byteLen];
for (int i=byteLen-1, bytesCopied=4, nextInt=0, intIndex=0; i >= 0; i--) {
if (bytesCopied == 4) {
nextInt = getInt(intIndex++);
bytesCopied = 1;
} else {
nextInt >>>= 8;
bytesCopied++;
}
byteArray[i] = (byte)nextInt;
}
return byteArray;
}
如你所见
int byteLen = bitLength()/8 + 1;
因为 BigInteger 是有符号的。
你指定的是十六进制的"80"
,你没有指定它是负数;因此最高位(二进制补码)必须为零。如果你试图用一个字节表示80
,那么最高位是1,所以它会是负数。
如果您尝试 new BigInteger("-80", 16).toByteArray()
,那么您会得到一个字节,其值为 -128
。
The documentation of toByteArray()
说
Returns a byte array containing the two's-complement representation of this BigInteger.
Two’s complement将符号位存放在最高位。因此,从 0x0–0x7F(即二进制形式的 0000 0000–0111⟩1111)中带符号的正值只需要一个字节来存储,但大于该字节的值需要第二个字节,否则它们将表示负数价值。特别地,1000 0000(当 unsigned 时,可以写成 0x80)对应于值 −0x80,而不是 +0x80,在二进制补码中。
感谢您的贡献、评论和回答,我终于明白是怎么回事了。
从 0 到十六进制 0x7F(十进制 127)的数字是这样工作的:
First Bit=sign (0=+,1=-)
| Other bits=number
v vvv vvvv
0 111 1111 = 0x7F = 127
从 128 到十六进制 0x7FFF(十进制 32.767)的数字是这样工作的:
First Bit (of first byte!)=sign
| Other bits and other bytes=number
v vvv vvvv vvvv vvvv
0 000 0000 1000 0000 = 0x80 = 128
长话短说:
- 只有第一个字节的第一位决定符号
- 所有其他字节的所有其他位确定绝对值
- 也就是第一个字节的7位
- 和每隔一个字节的8位
我想将十六进制字符串转换为字节数组。我认为使用 BigInteger
是个好主意。但是对于大于 7F
的值,它会产生意想不到的结果。
我的代码:
var bytes = new BigInteger("80", 16).toByteArray();
for (var b : bytes) System.out.println(b);
它输出:
0
-128
为什么这会产生 两个 字节?
我原以为 00
到 FF
会产生一个字节,0100
到 FFFF
会产生两个字节,依此类推。
旁注:第一个字节似乎很重要:
new BigInteger(new byte[]{ (byte)0x80}); // produces -128 (negative!)
new BigInteger(new byte[]{ 0, (byte)0x80}); // produces 128
new BigInteger(new byte[]{0, 0, (byte)0x80}); // produces 128
toByteArray()
方法 returns 包含二进制补码的字节数组
这个 BigInteger 的表示。字节数组将采用大端字节顺序
方法内部看起来像:
public byte[] toByteArray() {
int byteLen = bitLength()/8 + 1;
byte[] byteArray = new byte[byteLen];
for (int i=byteLen-1, bytesCopied=4, nextInt=0, intIndex=0; i >= 0; i--) {
if (bytesCopied == 4) {
nextInt = getInt(intIndex++);
bytesCopied = 1;
} else {
nextInt >>>= 8;
bytesCopied++;
}
byteArray[i] = (byte)nextInt;
}
return byteArray;
}
如你所见
int byteLen = bitLength()/8 + 1;
因为 BigInteger 是有符号的。
你指定的是十六进制的"80"
,你没有指定它是负数;因此最高位(二进制补码)必须为零。如果你试图用一个字节表示80
,那么最高位是1,所以它会是负数。
如果您尝试 new BigInteger("-80", 16).toByteArray()
,那么您会得到一个字节,其值为 -128
。
The documentation of toByteArray()
说
Returns a byte array containing the two's-complement representation of this BigInteger.
Two’s complement将符号位存放在最高位。因此,从 0x0–0x7F(即二进制形式的 0000 0000–0111⟩1111)中带符号的正值只需要一个字节来存储,但大于该字节的值需要第二个字节,否则它们将表示负数价值。特别地,1000 0000(当 unsigned 时,可以写成 0x80)对应于值 −0x80,而不是 +0x80,在二进制补码中。
感谢您的贡献、评论和回答,我终于明白是怎么回事了。
从 0 到十六进制 0x7F(十进制 127)的数字是这样工作的:
First Bit=sign (0=+,1=-)
| Other bits=number
v vvv vvvv
0 111 1111 = 0x7F = 127
从 128 到十六进制 0x7FFF(十进制 32.767)的数字是这样工作的:
First Bit (of first byte!)=sign
| Other bits and other bytes=number
v vvv vvvv vvvv vvvv
0 000 0000 1000 0000 = 0x80 = 128
长话短说:
- 只有第一个字节的第一位决定符号
- 所有其他字节的所有其他位确定绝对值
- 也就是第一个字节的7位
- 和每隔一个字节的8位