"ld -Ttext" 选项在做什么?

What is "ld -Ttext" option doing?

我正在跟随 this half-completed tutorial 开发一个简单的 OS。第一步(第 50 页)是用 $ld -o kernel.bin -Ttext 0x1000 kernel.o --oformat binary 编译一个简单的内核。但是我真的不明白选项 -Ttext 在做什么。

具体问题,为什么下面的实验中kernel_1000.bin&kernel.bin的md5相等,kernel_1001.bin&kernel_1009.bin相等,kernel_1007.bin & kernel_1017.bin 相等,而所有其他对不相等?

我的实验

我尝试用不同的 -Ttext 编译几个不同的内核,如下面的 Makefile:

...
kernel.o: kernel.c
    gcc -ffreestanding -c kernel.c

kernel.bin: kernel.o
    ld -o $@ kernel.o --oformat binary

kernel_1000.bin: kernel.o
    ld -o $@ -Ttext 0x1000 kernel.o --oformat binary

kernel_1001.bin: kernel.o
    ld -o $@ -Ttext 0x1001 kernel.o --oformat binary
...

然后我检查了他们的md5:

$ ls *.bin | xargs md5sum
d9248440a2c816e41527686cdb5118e4  kernel_1000.bin
65db5ab465301da1176b523dec387a40  kernel_1001.bin
819a5638827494a4556b7a96ee6e14b2  kernel_1007.bin
d9248440a2c816e41527686cdb5118e4  kernel_1008.bin
65db5ab465301da1176b523dec387a40  kernel_1009.bin
216b24060abce034911642acfa880403  kernel_1015.bin
e92901b1d12d316c564ba7916abca20c  kernel_1016.bin
819a5638827494a4556b7a96ee6e14b2  kernel_1017.bin
d9248440a2c816e41527686cdb5118e4  kernel.bin

kernel.c

void main() {
  char* video_memory = (char*) 0xb8000;
  *video_memory = 'X';
}

开发环境

$ gcc -v
Using built-in specs.
COLLECT_GCC=gcc
COLLECT_LTO_WRAPPER=/usr/lib/gcc/x86_64-linux-gnu/4.9/lto-wrapper
Target: x86_64-linux-gnu
Configured with: ../src/configure -v --with-pkgversion='Debian 4.9.2-10' --with-bugurl=file:///usr/share/doc/gcc-4.9/README.Bugs --enable-languages=c,c++,java,go,d,fortran,objc,obj-c++ --prefix=/usr --program-suffix=-4.9 --enable-shared --enable-linker-build-id --libexecdir=/usr/lib --without-included-gettext --enable-threads=posix --with-gxx-include-dir=/usr/include/c++/4.9 --libdir=/usr/lib --enable-nls --with-sysroot=/ --enable-clocale=gnu --enable-libstdcxx-debug --enable-libstdcxx-time=yes --enable-gnu-unique-object --disable-vtable-verify --enable-plugin --with-system-zlib --disable-browser-plugin --enable-java-awt=gtk --enable-gtk-cairo --with-java-home=/usr/lib/jvm/java-1.5.0-gcj-4.9-amd64/jre --enable-java-home --with-jvm-root-dir=/usr/lib/jvm/java-1.5.0-gcj-4.9-amd64 --with-jvm-jar-dir=/usr/lib/jvm-exports/java-1.5.0-gcj-4.9-amd64 --with-arch-directory=amd64 --with-ecj-jar=/usr/share/java/eclipse-ecj.jar --enable-objc-gc --enable-multiarch --with-arch-32=i586 --with-abi=m64 --with-multilib-list=m32,m64,mx32 --enable-multilib --with-tune=generic --enable-checking=release --build=x86_64-linux-gnu --host=x86_64-linux-gnu --target=x86_64-linux-gnu
Thread model: posix
gcc version 4.9.2 (Debian 4.9.2-10) 
$ uname -a
Linux localhost 3.16.0-4-amd64 #1 SMP Debian 3.16.7-ckt20-1+deb8u1 (2015-12-14) x86_64 GNU/Linux

-Ttext 选项将程序的 .text 部分放在给定的地址旁边。例如,如果您要编译此汇编代码:

section .text
global _start
_start:
    mov al, '!'
    jmp l
l:  mov ah, 0x0e
    mov bh, 0x00
    mov bl, 0x07

    int 0x10
    jmp $

times 510-($-$$) db 0

db 0x55
db 0xaa

与:

nasm -f elf64 -o test.o test.S
ld -o test test.o

然后用 objdump 查看它,你会看到它是 link 默认地址,x86_640x0000000000400000:

~$ objdump -D test

test:     file format elf64-x86-64


Disassembly of section .text:

0000000000400080 <_start>:
  400080:   b0 21                   mov    [=12=]x21,%al
  400082:   eb 00                   jmp    400084 <l>

0000000000400084 <l>:
  400084:   b4 0e                   mov    [=12=]xe,%ah
  ...
  ...
  ...

并且程序中的所有地址(至少在 .text 部分)都将与该地址相关。如果您要添加 -Ttext 1000 选项,您将看到:

~$ objdump -D 测试

test:     file format elf64-x86-64


Disassembly of section .text:

0000000000001000 <_start>:
    1000:   b0 21                   mov    [=13=]x21,%al
    1002:   eb 00                   jmp    1004 <l>

0000000000001004 <l>:
    1004:   b4 0e                   mov    [=13=]xe,%ah

您的程序将 linked 从 0x1000 地址开始,所有地址(包括 jmp 等)都将相对于 0x1000 到。

这对两件事很重要。简而言之,当操作系统内核加载您的程序时,它会加载 elf 格式或其他二进制格式的可执行文件,并读取 .text 部分开始的位置。在我们的例子中,您可以 link 您的 kernel.bin 随心所欲,因为没有加载程序作为操作系统内核,并且您是所有内存的主人 space。

所以如果你 link 你的 kernel.bin0x1000 开始,你就会知道代码从哪里开始工作(当然如果它实际上会在这个地方加载内存),如果您知道代码的基地址,则可以获取其中的所有地址,例如 my_label_inside_program - _start.