涉及 const_cast 的意外行为
Unexpected behavior involving const_cast
我想出了下面的例子,它暴露了一些意想不到的行为。
我希望在 push_back 之后,向量中的任何内容都在那里。
看起来编译器不知何故决定重新使用 str.
使用的内存
有人可以解释一下这个例子中发生了什么吗?
这是有效的 C++ 代码吗?
最初的问题来自负责序列化/反序列化消息的代码,它使用 const_cast 删除常量。
在注意到该代码的一些意外行为后,我创建了这个简化的示例,它试图证明该问题。
#include <vector>
#include <iostream>
#include <string>
using namespace std;
int main()
{
auto str = std::string("XYZ"); // mutable string
const auto& cstr(str); // const ref to it
vector<string> v;
v.push_back(cstr);
cout << v.front() << endl; // XYZ is printed as expected
*const_cast<char*>(&cstr[0])='*'; // this will modify the first element in the VECTOR (is this expected?)
str[1]='#'; //
cout << str << endl; // prints *#Z as expected
cout << cstr << endl; // prints *#Z as expected
cout << v.front() << endl; // Why *YZ is printed, not XYZ and not *#Z ?
return 0;
}
了解错误
意外行为的发生是由于 std::string
的贬值实现中的怪癖。 旧版本的 GCC 使用 std::string
copy-on-write语义。这是一个聪明的主意,但它会导致像您所看到的那样的错误。这意味着 GCC 试图定义 std::string
以便仅在修改新的 std::string
时才复制内部字符串缓冲区。例如:
std::string A = "Hello, world";
std::string B = A; // No copy occurs (yet)
A[3] = '*'; // Copy occurs now because A got modified.
但是,当您采用常量指针时,不会发生复制,因为库假定不会通过该指针修改字符串:
std::string A = "Hello, world";
std::string B = A;
std::string const& A_ref = A;
const_cast<char&>(A_ref[3]) = '*'; // No copy occurs (your bug)
如您所见,copy-on-write 语义往往会导致错误。正因为如此,并且因为复制字符串非常便宜(考虑到所有因素),std::string
的复制 copy-on-write 实现被 折旧并且在 GCC 5 中移除。
那么,如果您使用的是 GCC 5,为什么会看到此错误?您可能正在编译和链接旧版本的 C++ 标准库(其中一个copy-on-write仍然是std::string
)的实现。这就是导致您出现错误的原因。
检查您正在编译的 C++ 标准库版本,如果可能,请更新您的编译器。
如何判断我的编译器正在使用 std::string
的哪个实现?
- 新的 GCC 实现:
sizeof(std::string) == 32
(为 64 位编译时)
- 旧的 GCC 实现:
sizeof(std::string) == 8
(为 64 位编译时)
如果您的编译器使用的是 std::string
的旧实现,那么 sizeof(std::string)
与 sizeof(char*)
相同,因为 std::string
是作为指向块的指针实现的记忆。内存块实际上包含字符串的大小和容量等内容。
struct string { //Old data layout
size_t* _data;
size_t size() const {
return *(data - SIZE_OFFSET);
}
size_t capacity() const {
return *(data - CAPACITY_OFFSET);
}
char const* data() const {
return (char const*)_data;
}
};
另一方面,如果您使用的是 std::string
的较新实现,那么 sizeof(std::string)
应该是 32 字节(在 64 位系统上)。这是因为较新的实现将字符串的大小和容量存储在 std::string
本身中,而不是存储在它指向的数据中:
struct string { // New data layout
char* _data;
size_t _size;
size_t _capacity;
size_t _padding;
// ...
};
新实施有什么好处?新实施有很多好处:
- 可以更快地访问大小和容量(因为优化器更有可能将它们存储在寄存器中,或者至少它们可能在缓存中)
- 因为
std::string
是32字节,我们可以利用小字符串优化。小字符串优化允许长度小于 16 个字符的字符串存储在通常由 _capacity
和 _padding
占用的 space 中。这避免了堆分配,并且对于大多数用例来说速度更快。
我们可以看到下面GDB使用了std::string
的旧实现,因为sizeof(std::string)
returns 8字节:
我想出了下面的例子,它暴露了一些意想不到的行为。 我希望在 push_back 之后,向量中的任何内容都在那里。 看起来编译器不知何故决定重新使用 str.
使用的内存有人可以解释一下这个例子中发生了什么吗? 这是有效的 C++ 代码吗?
最初的问题来自负责序列化/反序列化消息的代码,它使用 const_cast 删除常量。 在注意到该代码的一些意外行为后,我创建了这个简化的示例,它试图证明该问题。
#include <vector>
#include <iostream>
#include <string>
using namespace std;
int main()
{
auto str = std::string("XYZ"); // mutable string
const auto& cstr(str); // const ref to it
vector<string> v;
v.push_back(cstr);
cout << v.front() << endl; // XYZ is printed as expected
*const_cast<char*>(&cstr[0])='*'; // this will modify the first element in the VECTOR (is this expected?)
str[1]='#'; //
cout << str << endl; // prints *#Z as expected
cout << cstr << endl; // prints *#Z as expected
cout << v.front() << endl; // Why *YZ is printed, not XYZ and not *#Z ?
return 0;
}
了解错误
意外行为的发生是由于 std::string
的贬值实现中的怪癖。 旧版本的 GCC 使用 std::string
copy-on-write语义。这是一个聪明的主意,但它会导致像您所看到的那样的错误。这意味着 GCC 试图定义 std::string
以便仅在修改新的 std::string
时才复制内部字符串缓冲区。例如:
std::string A = "Hello, world";
std::string B = A; // No copy occurs (yet)
A[3] = '*'; // Copy occurs now because A got modified.
但是,当您采用常量指针时,不会发生复制,因为库假定不会通过该指针修改字符串:
std::string A = "Hello, world";
std::string B = A;
std::string const& A_ref = A;
const_cast<char&>(A_ref[3]) = '*'; // No copy occurs (your bug)
如您所见,copy-on-write 语义往往会导致错误。正因为如此,并且因为复制字符串非常便宜(考虑到所有因素),std::string
的复制 copy-on-write 实现被 折旧并且在 GCC 5 中移除。
那么,如果您使用的是 GCC 5,为什么会看到此错误?您可能正在编译和链接旧版本的 C++ 标准库(其中一个copy-on-write仍然是std::string
)的实现。这就是导致您出现错误的原因。
检查您正在编译的 C++ 标准库版本,如果可能,请更新您的编译器。
如何判断我的编译器正在使用 std::string
的哪个实现?
- 新的 GCC 实现:
sizeof(std::string) == 32
(为 64 位编译时) - 旧的 GCC 实现:
sizeof(std::string) == 8
(为 64 位编译时)
如果您的编译器使用的是 std::string
的旧实现,那么 sizeof(std::string)
与 sizeof(char*)
相同,因为 std::string
是作为指向块的指针实现的记忆。内存块实际上包含字符串的大小和容量等内容。
struct string { //Old data layout
size_t* _data;
size_t size() const {
return *(data - SIZE_OFFSET);
}
size_t capacity() const {
return *(data - CAPACITY_OFFSET);
}
char const* data() const {
return (char const*)_data;
}
};
另一方面,如果您使用的是 std::string
的较新实现,那么 sizeof(std::string)
应该是 32 字节(在 64 位系统上)。这是因为较新的实现将字符串的大小和容量存储在 std::string
本身中,而不是存储在它指向的数据中:
struct string { // New data layout
char* _data;
size_t _size;
size_t _capacity;
size_t _padding;
// ...
};
新实施有什么好处?新实施有很多好处:
- 可以更快地访问大小和容量(因为优化器更有可能将它们存储在寄存器中,或者至少它们可能在缓存中)
- 因为
std::string
是32字节,我们可以利用小字符串优化。小字符串优化允许长度小于 16 个字符的字符串存储在通常由_capacity
和_padding
占用的 space 中。这避免了堆分配,并且对于大多数用例来说速度更快。
我们可以看到下面GDB使用了std::string
的旧实现,因为sizeof(std::string)
returns 8字节: