从 GDB 解码 ARM 指令
Decoding ARM instruction from GDB
我想 understand/decode 我的 aarch64 设备上的 ARM 指令。
我有以下用C语言写的代码:
void test_function(int a, int b, int c, int d) {
int flag;
char buffer[10];
flag = 31337;
buffer[0] = 'A';
}
int main() {
test_function(1, 2, 3, 4);
}
gcc -g stack_example.c
和 gdb -q ./a.out
产生以下程序集:
(gdb) disass main
Dump of assembler code for function main:
0x00000000000016d4 <+0>: stp x29, x30, [sp, #-16]!
0x00000000000016d8 <+4>: mov x29, sp
0x00000000000016dc <+8>: mov w0, #0x1 // #1
0x00000000000016e0 <+12>: mov w1, #0x2 // #2
0x00000000000016e4 <+16>: mov w2, #0x3 // #3
0x00000000000016e8 <+20>: mov w3, #0x4 // #4
0x00000000000016ec <+24>: bl 0x16a8 <test_function>
0x00000000000016f0 <+28>: mov w0, wzr
0x00000000000016f4 <+32>: ldp x29, x30, [sp], #16
0x00000000000016f8 <+36>: ret
End of assembler dump.
(gdb) disass test_function
Dump of assembler code for function test_function:
0x00000000000016a8 <+0>: sub sp, sp, #0x20
0x00000000000016ac <+4>: str w0, [sp, #28]
0x00000000000016b0 <+8>: str w1, [sp, #24]
0x00000000000016b4 <+12>: str w2, [sp, #20]
0x00000000000016b8 <+16>: str w3, [sp, #16]
0x00000000000016bc <+20>: mov w8, #0x7a69 // #31337
0x00000000000016c0 <+24>: str w8, [sp, #12]
0x00000000000016c4 <+28>: mov w8, #0x41 // #65
0x00000000000016c8 <+32>: strb w8, [sp, #2]
0x00000000000016cc <+36>: add sp, sp, #0x20
0x00000000000016d0 <+40>: ret
End of assembler dump.
当我现在做 break 10
、break test_function
、run
和 disass main
我得到
(gdb) disass main
Dump of assembler code for function main:
0x00000055907a86d4 <+0>: stp x29, x30, [sp, #-16]!
0x00000055907a86d8 <+4>: mov x29, sp
0x00000055907a86dc <+8>: mov w0, #0x1 // #1
0x00000055907a86e0 <+12>: mov w1, #0x2 // #2
0x00000055907a86e4 <+16>: mov w2, #0x3 // #3
0x00000055907a86e8 <+20>: mov w3, #0x4 // #4
=> 0x00000055907a86ec <+24>: bl 0x55907a86a8 <test_function>
0x00000055907a86f0 <+28>: mov w0, wzr
0x00000055907a86f4 <+32>: ldp x29, x30, [sp], #16
0x00000055907a86f8 <+36>: ret
End of assembler dump.
现在根据 Arm Architecture Reference Manual Armv8, for A-profile architecture, page 934 BL 指令以 100101 开始,后跟一个 26 位立即数。
用yields检查程序计数器所在位置的内存
(gdb) x/16b 0x55907a86ec
0x55907a86ec <main+24>: 11101111 11111111 11111111 10010111 11100000 00000011 00011111 00101010
0x55907a86f4 <main+32>: 11111101 01111011 11000001 10101000 11000000 00000011 01011111 11010110
我想,指令从第四个字节开始,但我不确定。我试图重建地址 0x55907a86a8,但没有成功。有人可以帮忙吗?
AArch64 指令采用小端编码,因此如果您一次转储一个字节的代码,每个 4 字节的字的字节顺序将相反。因此,从您的输出中,您必须取前 4 个字节,反转它们的顺序(但不要反转字节中的位),然后连接它们。 (您可以通过执行 x/tw 0x55907a86ec
让调试器为您完成它。)这给出:
10010111111111111111111111101111
确实最高6位是操作码100101
。立即数是 11111111111111111111101111
。这是一个二进制补码的负数(回想一下,立即数是符号扩展的),值为 -17
或 -0x11
。该数字乘以 4(左移两位),得到 -0x44
并添加到 bl
指令本身的地址以找到分支目标。事实上 0x00000055907a86ec - 0x44 = 0x55907a86a8
,这是调试器显示给你的地址,也是 test_function
.
的第一条指令的地址
请注意,ASLR 是在您开始 运行 程序时完成的,这就是反汇编在 run
前后显示不同地址的原因。如果您在 run
之后执行 disassemble test_function
,您应该会看到它从 0x55907a86a8
开始。尽管如此,如果您查看 ASLR 前的反汇编,您会注意到 bl test_function
指令的地址 (0x16ec
) 与 test_function
本身的地址 (0x16a8
) 是一样的 -0x44
。 (其实ASLR是以page为单位做的,所以低12位是不会被它改变的。)
我想 understand/decode 我的 aarch64 设备上的 ARM 指令。
我有以下用C语言写的代码:
void test_function(int a, int b, int c, int d) {
int flag;
char buffer[10];
flag = 31337;
buffer[0] = 'A';
}
int main() {
test_function(1, 2, 3, 4);
}
gcc -g stack_example.c
和 gdb -q ./a.out
产生以下程序集:
(gdb) disass main
Dump of assembler code for function main:
0x00000000000016d4 <+0>: stp x29, x30, [sp, #-16]!
0x00000000000016d8 <+4>: mov x29, sp
0x00000000000016dc <+8>: mov w0, #0x1 // #1
0x00000000000016e0 <+12>: mov w1, #0x2 // #2
0x00000000000016e4 <+16>: mov w2, #0x3 // #3
0x00000000000016e8 <+20>: mov w3, #0x4 // #4
0x00000000000016ec <+24>: bl 0x16a8 <test_function>
0x00000000000016f0 <+28>: mov w0, wzr
0x00000000000016f4 <+32>: ldp x29, x30, [sp], #16
0x00000000000016f8 <+36>: ret
End of assembler dump.
(gdb) disass test_function
Dump of assembler code for function test_function:
0x00000000000016a8 <+0>: sub sp, sp, #0x20
0x00000000000016ac <+4>: str w0, [sp, #28]
0x00000000000016b0 <+8>: str w1, [sp, #24]
0x00000000000016b4 <+12>: str w2, [sp, #20]
0x00000000000016b8 <+16>: str w3, [sp, #16]
0x00000000000016bc <+20>: mov w8, #0x7a69 // #31337
0x00000000000016c0 <+24>: str w8, [sp, #12]
0x00000000000016c4 <+28>: mov w8, #0x41 // #65
0x00000000000016c8 <+32>: strb w8, [sp, #2]
0x00000000000016cc <+36>: add sp, sp, #0x20
0x00000000000016d0 <+40>: ret
End of assembler dump.
当我现在做 break 10
、break test_function
、run
和 disass main
我得到
(gdb) disass main
Dump of assembler code for function main:
0x00000055907a86d4 <+0>: stp x29, x30, [sp, #-16]!
0x00000055907a86d8 <+4>: mov x29, sp
0x00000055907a86dc <+8>: mov w0, #0x1 // #1
0x00000055907a86e0 <+12>: mov w1, #0x2 // #2
0x00000055907a86e4 <+16>: mov w2, #0x3 // #3
0x00000055907a86e8 <+20>: mov w3, #0x4 // #4
=> 0x00000055907a86ec <+24>: bl 0x55907a86a8 <test_function>
0x00000055907a86f0 <+28>: mov w0, wzr
0x00000055907a86f4 <+32>: ldp x29, x30, [sp], #16
0x00000055907a86f8 <+36>: ret
End of assembler dump.
现在根据 Arm Architecture Reference Manual Armv8, for A-profile architecture, page 934 BL 指令以 100101 开始,后跟一个 26 位立即数。
用yields检查程序计数器所在位置的内存
(gdb) x/16b 0x55907a86ec
0x55907a86ec <main+24>: 11101111 11111111 11111111 10010111 11100000 00000011 00011111 00101010
0x55907a86f4 <main+32>: 11111101 01111011 11000001 10101000 11000000 00000011 01011111 11010110
我想,指令从第四个字节开始,但我不确定。我试图重建地址 0x55907a86a8,但没有成功。有人可以帮忙吗?
AArch64 指令采用小端编码,因此如果您一次转储一个字节的代码,每个 4 字节的字的字节顺序将相反。因此,从您的输出中,您必须取前 4 个字节,反转它们的顺序(但不要反转字节中的位),然后连接它们。 (您可以通过执行 x/tw 0x55907a86ec
让调试器为您完成它。)这给出:
10010111111111111111111111101111
确实最高6位是操作码100101
。立即数是 11111111111111111111101111
。这是一个二进制补码的负数(回想一下,立即数是符号扩展的),值为 -17
或 -0x11
。该数字乘以 4(左移两位),得到 -0x44
并添加到 bl
指令本身的地址以找到分支目标。事实上 0x00000055907a86ec - 0x44 = 0x55907a86a8
,这是调试器显示给你的地址,也是 test_function
.
请注意,ASLR 是在您开始 运行 程序时完成的,这就是反汇编在 run
前后显示不同地址的原因。如果您在 run
之后执行 disassemble test_function
,您应该会看到它从 0x55907a86a8
开始。尽管如此,如果您查看 ASLR 前的反汇编,您会注意到 bl test_function
指令的地址 (0x16ec
) 与 test_function
本身的地址 (0x16a8
) 是一样的 -0x44
。 (其实ASLR是以page为单位做的,所以低12位是不会被它改变的。)