从程序集调用 returns std::string 的 C++ 函数
Calling a C++ function that returns std::string from assembly
我目前正在 运行 外部 C++ 函数来进行简单的字符串输入。我的总体目标是连接两个用户输入的字符串,但由于某种原因,我在第二次 returning inputString 函数时遇到读取访问冲突。
我在调查后怀疑我的函数是 returning 这两个 return 字符串在同一个地址。我还认为我可能错误地管理了堆栈。
extern inputString : proto C
extern outputStringLen : proto C
.data
.CODE
asm_main PROC
sub rsp, 20h ; creating shadow space
call inputString
mov rcx, rax
call outputStringLen
mov r12, rax
call inputString
mov rcx, rax
call outputStringLen
mov r13, rax
add rsp, 20h ; deleting created space
ret ; ret to stack
asm_main ENDP
END
C++代码:
extern "C" string inputString() {
string strInput;
cout << "Enter string input: ";
cin >> strInput;
return strInput;
}
extern "C" int outputStringLen(string strInput) {
int strLength = 0;
for (int i = 0; i < strInput.length(); i++) {
strLength++;
}
return strLength;
}
您没有传递指向 std::string return-value object 的指针以供 inputString 存储其结果。它通常是 32 字节的 object 并且不会不适合 RAX。像大多数调用约定 Windows x64 通过让调用者传递一个指针作为第一个参数来处理大的 struct/class returns(和 non-trivially-copyable objects)。 https://docs.microsoft.com/en-us/cpp/build/x64-calling-convention?view=msvc-160
使用调试器查看哪个指令出错。 (可能是 inputString
中的一个,使用的是之前踩过的 RCX。)
可能在第一次调用您的 asm_main
时,RCX 仍然碰巧持有 char **argv
或其他一些指向可写内存的有效指针。当您第一次调用 inputString
时,您会将其作为指向 return-value object 的指针传递。但是outputStringLen
可能已经踩到了RCX本身,所以第二次调用传递了一个无效的指针。
即第一次调用只是碰巧有效,并且会因 asm_main
.
的不同调用者而失败
这似乎是一种让您熟悉汇编语言的非常复杂的方法!
std::string
不是 trivially-copyable 类型;它有 copy-constructors 和一个析构函数,实际上是一个容器,可以直接保存数据或指向 dynamically-allocated 存储。
MSVC 甚至警告在函数 return 上使用 std::string:
<source>(4): warning C4190: 'inputString' has C-linkage specified, but returns UDT 'std::basic_string<char,std::char_traits<char>,std::allocator<char>>' which is incompatible with C
C:/data/msvc/14.28.29914/include\xstring(4648): note: see declaration of 'std::basic_string<char,std::char_traits<char>,std::allocator<char>>'
使用像 sub rsp, 88
这样的缓冲区在堆栈上保留 88 个字节,并使用带有 char *
arg 的 C++ 函数,在 asm 中会更简单。
说起来,要re-align RSP 在进入asm_main
时提高16,您应该将RSP 调整16*n + 8
。所以至少 sub rsp, 28h
,因为你什么都没有 push
。
像 std::string
这样的 C++ 容器很难在 asm
中使用
你的总体目标相当复杂,特别是考虑到 C++ 实现使用 short-string 优化(将数据保存在 std::string
object 本身),但对于更长的字符串使用相同的space 存储 3 个指针,如 std::vector
.
或者您想调用使用 std::string::operator+
的 C++ 函数?这会让事情变得更容易,但是如果你只 return 连接的字符串 object,你仍然会泄漏两个 std::string
return-value object 的内存。 (如果你用 C++ 编写调用程序,它将有两个 std::string
本地变量,并且会 运行 它们在退出时的析构函数。)我猜 operator+=
意味着你只需要处理其中一个,因为如果您通过引用传递它,它将附加到现有的 std::string
object。
请注意,在 asm 中,int outputStringLen(string strInput)
看起来与 int outputStringLen(const string &strInput)
基本相同。两者都带一个指针(因为 std::string
太大而无法传入一个寄存器,所以 Windows x64 调用约定要求调用者创建一个临时的 object 并将指针传递给它,以实现按值调用)。所以这只是调用者是否创建一个 tmp object,或者你是否传递一个指向现有 object.
的指针的问题
您应该查看调用其他 C++ 函数的 C++ 函数的编译器输出*,看看编译器会做什么。许多 How to remove "noise" from GCC/clang assembly output? 适用 - 包括将代码放在 Godbolt Compiler Explorer 上的建议 -
#include <string>
#include <cstdlib>
extern "C" std::string inputString();
extern "C" size_t outputStringLen(const std::string &strInput);
//extern "C" size_t outputStringLen(std::string strInput); // *much* more code to pass a copy by value
int sink; // to show the output definitely going somewhere, not just staying in RAX
void asm_main(void) {
std::string a = inputString();
size_t len = outputStringLen(a);
sink = len;
}
使用 MSVC -O2 -GS-
编译:https://godbolt.org/z/4YdG1bf4o。 (优化删除了大量 store/reload 并将其归结为 必须 发生的工作。-GS-
删除了 buffer-overflow 检查。)
a$ = 32
void asm_main(void) PROC ; asm_main, COMDAT
$LN36:
sub rsp, 72 ; 00000048H
lea rcx, QWORD PTR a$[rsp] ;;; output pointer
call inputString
lea rcx, QWORD PTR a$[rsp] ;;; same pointer arg
call outputStringLen
mov rdx, QWORD PTR a$[rsp+24]
mov DWORD PTR int sink, eax ; sink
cmp rdx, 16 ;;; check for short-string => no delete
jb SHORT $LN16@asm_main
mov rcx, QWORD PTR a$[rsp]
inc rdx
mov rax, rcx
cmp rdx, 4096 ; 00001000H
jb SHORT $LN26@asm_main
mov rcx, QWORD PTR [rcx-8]
add rdx, 39 ; 00000027H
sub rax, rcx
add rax, -8
cmp rax, 31 ;; some kind of invalid / corrupt std::string check?
ja SHORT $LN34@asm_main
$LN26@asm_main:
call void operator delete(void *,unsigned __int64) ; operator delete
$LN16@asm_main:
add rsp, 72 ; 00000048H
ret 0
$LN34@asm_main:
call _invalid_parameter_noinfo_noreturn
int 3
$LN32@asm_main:
void asm_main(void) ENDP ; asm_main
我不知道为什么它需要检查任何东西并有条件地调用_invalid_parameter_noinfo_noreturn
;该部分可能在正常执行期间从未达到,因此基本上可以被视为噪声。
传递给 inputString
的指针显示了您应该做的事情:
a$ = 32
...
sub rsp, 72 ; shadow space + sizeof(std::string) + alignment padding
lea rcx, QWORD PTR a$[rsp] ;;; Pointer to return-value object
call inputString
lea rcx, QWORD PTR a$[rsp]
call outputStringLen
...
mov DWORD PTR int sink, eax ; sink
(我认为在 Windows x64 中,通过隐藏输出指针 return 大 object 的函数也必须 return RAX 中的那个指针,所以你的mov rcx, rax
也是安全的。)
还要注意对 operator delete
的条件调用,这取决于 std::string 的大小(检测 short-string 优化以查看是否有任何 dynamically-allocated 存储空间可以释放).
请记住,这是简单版本;通过 const 引用传递,而不是通过值传递 copy-construct 另一个 std::string
object.
std::string
的 ABI 由 C++ headers. 中的实现细节决定,这不是特别容易与 asm 互操作的东西。我部分地向您展示了警告您不要尝试这样做的详细信息,以及为您提供指示以查找您需要的信息 hand-write 更正与 C++ 交互的 asm std::string
.通常你想把它留给编译器。
一个好的经验法则是,你想从 asm 调用的函数实际上应该可以从 C 调用,除非你想编写了解 C++ 编译器的 C++ 的 asm ABI(例如 std::string
的布局和其他内部细节)。采用或 returning a std::string
不合格:你不能教 C 编译器正确处理 a std::string
因为它有构造函数和析构函数,以及重载的运算符。这就是为什么 MSVC 抱怨 return 在 extern "C"
函数中按值计算一个
尝试用实际的 C 而不是 C++ 编写 asm_main
,看看您 运行 会遇到什么问题。
你的 outputStringLen
很大 over-complicated。 std::string
是一个 explicit-length 字符串,即它知道自己的长度,所以你可以直接要求它。 return str.length()
。循环 for (i=0, j=0 ; i<n ; i++){ j++; }
是一种非常低效的写法 i = j = n;
.
也许您正在考虑 char*
C 字符串,带有 0
终止符,您必须循环(或调用 strlen)才能找到长度。
我目前正在 运行 外部 C++ 函数来进行简单的字符串输入。我的总体目标是连接两个用户输入的字符串,但由于某种原因,我在第二次 returning inputString 函数时遇到读取访问冲突。
我在调查后怀疑我的函数是 returning 这两个 return 字符串在同一个地址。我还认为我可能错误地管理了堆栈。
extern inputString : proto C
extern outputStringLen : proto C
.data
.CODE
asm_main PROC
sub rsp, 20h ; creating shadow space
call inputString
mov rcx, rax
call outputStringLen
mov r12, rax
call inputString
mov rcx, rax
call outputStringLen
mov r13, rax
add rsp, 20h ; deleting created space
ret ; ret to stack
asm_main ENDP
END
C++代码:
extern "C" string inputString() {
string strInput;
cout << "Enter string input: ";
cin >> strInput;
return strInput;
}
extern "C" int outputStringLen(string strInput) {
int strLength = 0;
for (int i = 0; i < strInput.length(); i++) {
strLength++;
}
return strLength;
}
您没有传递指向 std::string return-value object 的指针以供 inputString 存储其结果。它通常是 32 字节的 object 并且不会不适合 RAX。像大多数调用约定 Windows x64 通过让调用者传递一个指针作为第一个参数来处理大的 struct/class returns(和 non-trivially-copyable objects)。 https://docs.microsoft.com/en-us/cpp/build/x64-calling-convention?view=msvc-160
使用调试器查看哪个指令出错。 (可能是 inputString
中的一个,使用的是之前踩过的 RCX。)
可能在第一次调用您的 asm_main
时,RCX 仍然碰巧持有 char **argv
或其他一些指向可写内存的有效指针。当您第一次调用 inputString
时,您会将其作为指向 return-value object 的指针传递。但是outputStringLen
可能已经踩到了RCX本身,所以第二次调用传递了一个无效的指针。
即第一次调用只是碰巧有效,并且会因 asm_main
.
这似乎是一种让您熟悉汇编语言的非常复杂的方法!
std::string
不是 trivially-copyable 类型;它有 copy-constructors 和一个析构函数,实际上是一个容器,可以直接保存数据或指向 dynamically-allocated 存储。
MSVC 甚至警告在函数 return 上使用 std::string:
<source>(4): warning C4190: 'inputString' has C-linkage specified, but returns UDT 'std::basic_string<char,std::char_traits<char>,std::allocator<char>>' which is incompatible with C
C:/data/msvc/14.28.29914/include\xstring(4648): note: see declaration of 'std::basic_string<char,std::char_traits<char>,std::allocator<char>>'
使用像 sub rsp, 88
这样的缓冲区在堆栈上保留 88 个字节,并使用带有 char *
arg 的 C++ 函数,在 asm 中会更简单。
说起来,要re-align RSP 在进入asm_main
时提高16,您应该将RSP 调整16*n + 8
。所以至少 sub rsp, 28h
,因为你什么都没有 push
。
像 std::string
这样的 C++ 容器很难在 asm
中使用
你的总体目标相当复杂,特别是考虑到 C++ 实现使用 short-string 优化(将数据保存在 std::string
object 本身),但对于更长的字符串使用相同的space 存储 3 个指针,如 std::vector
.
或者您想调用使用 std::string::operator+
的 C++ 函数?这会让事情变得更容易,但是如果你只 return 连接的字符串 object,你仍然会泄漏两个 std::string
return-value object 的内存。 (如果你用 C++ 编写调用程序,它将有两个 std::string
本地变量,并且会 运行 它们在退出时的析构函数。)我猜 operator+=
意味着你只需要处理其中一个,因为如果您通过引用传递它,它将附加到现有的 std::string
object。
请注意,在 asm 中,int outputStringLen(string strInput)
看起来与 int outputStringLen(const string &strInput)
基本相同。两者都带一个指针(因为 std::string
太大而无法传入一个寄存器,所以 Windows x64 调用约定要求调用者创建一个临时的 object 并将指针传递给它,以实现按值调用)。所以这只是调用者是否创建一个 tmp object,或者你是否传递一个指向现有 object.
您应该查看调用其他 C++ 函数的 C++ 函数的编译器输出*,看看编译器会做什么。许多 How to remove "noise" from GCC/clang assembly output? 适用 - 包括将代码放在 Godbolt Compiler Explorer 上的建议 -
#include <string>
#include <cstdlib>
extern "C" std::string inputString();
extern "C" size_t outputStringLen(const std::string &strInput);
//extern "C" size_t outputStringLen(std::string strInput); // *much* more code to pass a copy by value
int sink; // to show the output definitely going somewhere, not just staying in RAX
void asm_main(void) {
std::string a = inputString();
size_t len = outputStringLen(a);
sink = len;
}
使用 MSVC -O2 -GS-
编译:https://godbolt.org/z/4YdG1bf4o。 (优化删除了大量 store/reload 并将其归结为 必须 发生的工作。-GS-
删除了 buffer-overflow 检查。)
a$ = 32
void asm_main(void) PROC ; asm_main, COMDAT
$LN36:
sub rsp, 72 ; 00000048H
lea rcx, QWORD PTR a$[rsp] ;;; output pointer
call inputString
lea rcx, QWORD PTR a$[rsp] ;;; same pointer arg
call outputStringLen
mov rdx, QWORD PTR a$[rsp+24]
mov DWORD PTR int sink, eax ; sink
cmp rdx, 16 ;;; check for short-string => no delete
jb SHORT $LN16@asm_main
mov rcx, QWORD PTR a$[rsp]
inc rdx
mov rax, rcx
cmp rdx, 4096 ; 00001000H
jb SHORT $LN26@asm_main
mov rcx, QWORD PTR [rcx-8]
add rdx, 39 ; 00000027H
sub rax, rcx
add rax, -8
cmp rax, 31 ;; some kind of invalid / corrupt std::string check?
ja SHORT $LN34@asm_main
$LN26@asm_main:
call void operator delete(void *,unsigned __int64) ; operator delete
$LN16@asm_main:
add rsp, 72 ; 00000048H
ret 0
$LN34@asm_main:
call _invalid_parameter_noinfo_noreturn
int 3
$LN32@asm_main:
void asm_main(void) ENDP ; asm_main
我不知道为什么它需要检查任何东西并有条件地调用_invalid_parameter_noinfo_noreturn
;该部分可能在正常执行期间从未达到,因此基本上可以被视为噪声。
传递给 inputString
的指针显示了您应该做的事情:
a$ = 32
...
sub rsp, 72 ; shadow space + sizeof(std::string) + alignment padding
lea rcx, QWORD PTR a$[rsp] ;;; Pointer to return-value object
call inputString
lea rcx, QWORD PTR a$[rsp]
call outputStringLen
...
mov DWORD PTR int sink, eax ; sink
(我认为在 Windows x64 中,通过隐藏输出指针 return 大 object 的函数也必须 return RAX 中的那个指针,所以你的mov rcx, rax
也是安全的。)
还要注意对 operator delete
的条件调用,这取决于 std::string 的大小(检测 short-string 优化以查看是否有任何 dynamically-allocated 存储空间可以释放).
请记住,这是简单版本;通过 const 引用传递,而不是通过值传递 copy-construct 另一个 std::string
object.
std::string
的 ABI 由 C++ headers. 中的实现细节决定,这不是特别容易与 asm 互操作的东西。我部分地向您展示了警告您不要尝试这样做的详细信息,以及为您提供指示以查找您需要的信息 hand-write 更正与 C++ 交互的 asm std::string
.通常你想把它留给编译器。
一个好的经验法则是,你想从 asm 调用的函数实际上应该可以从 C 调用,除非你想编写了解 C++ 编译器的 C++ 的 asm ABI(例如 std::string
的布局和其他内部细节)。采用或 returning a std::string
不合格:你不能教 C 编译器正确处理 a std::string
因为它有构造函数和析构函数,以及重载的运算符。这就是为什么 MSVC 抱怨 return 在 extern "C"
函数中按值计算一个
尝试用实际的 C 而不是 C++ 编写 asm_main
,看看您 运行 会遇到什么问题。
你的 outputStringLen
很大 over-complicated。 std::string
是一个 explicit-length 字符串,即它知道自己的长度,所以你可以直接要求它。 return str.length()
。循环 for (i=0, j=0 ; i<n ; i++){ j++; }
是一种非常低效的写法 i = j = n;
.
也许您正在考虑 char*
C 字符串,带有 0
终止符,您必须循环(或调用 strlen)才能找到长度。