reinterpret_cast 从原始内存中获取的指针重新分配是否会导致 UB?
Does reassignment of pointers acquired by reinterpret_cast from raw memory cause UB?
在我们的讲座中,我们讨论了 std::list
的内部可能实现。讲师展示了创建虚拟节点以指示列表结尾的方法:
struct Node { Node* prev; ... }
Node* dummy = reinterpret_cast<Node*>(new int8_t[sizeof(Node)]);
dummy->prev = ... /* last node */;
他们声称最后一行 可能 导致未定义的行为。我不明白为什么这可能不安全。归根结底,我们只是在不取消引用预设的情况下覆盖了几位。如果这真的是个问题,它不会在 reinterpret_cast
ing 时发生吗?
那么,这里是否真的发生了未定义的行为,如果是,为什么?
首先,对于你的第二行
Node* dummy = reinterpret_cast<Node*>(new int8_t[sizeof(Node)]);
自己。
new
return 是指向它创建的 int8_t
个对象数组中第一个 int8_t
对象的指针。
reinterpret_cast
的行为取决于指针所代表地址的对齐方式。如果它适合 Node
类型的对象对齐,那么它将保持指针值不变(因为在 pointer-interconvertible 的位置确实没有 Node
对象 int8_t
对象)。如果未适当对齐,returned 指针值将是未指定。
Unspecified 意味着我们不知道该值是什么,但不会导致未定义的行为。
因此,在任何情况下,第二行和转换本身都没有未定义的行为。
行
dummy->prev = ... /* last node */;
要求dummy
指向的对象实际上是一个Node
对象。否则它有未定义的行为。如上所述,reinterpret_cast
给我们一个未指定的值或指向 int8_t
对象的指针。这已经是一个问题,我认为至少需要 std::launder
调用。
即使从 new
得到的指针 return 正确对齐,我们仍然需要检查 Node
对象是否存在。我们当然没有在任何显示的操作中显式创建任何此类对象,但是隐式对象创建可能会有所帮助(至少从 C++20 开始,但我想这应该是针对旧标准版本的缺陷报告).
具体来说,可以在 unsigned char
、std::byte
类型的数组中隐式创建对象,并且有一些限制,char
(CWG 2489) when the lifetime of the array is started. int8_t
is usually signed char
and I think is not allowed to be either of the three previously mentioned types (see e.g. this question)。这消除了 UB 的唯一可能出路。
所以你的第三行代码确实有未定义的行为。
即使您通过将类型形式 int8_t
更改为 std::byte
来解决此问题,在 Node
的细节上还有其他限制,以使隐式对象创建成为可能。可能还需要添加一个 std::launder
调用。
所有这些还没有考虑对齐,因为虽然 new[]
获得内存有一些对齐要求,但我认为标准要求 new[]
本身到 return 一个指针比 char
、unsigned char
和 std::byte
数组 new
.
的元素类型所需的对齐更强
许多这些问题可能可以通过使用例如operator new
直接,可能提供对齐请求,并确保 Node
是一个聚合。
在任何情况下编写这样的代码都是非常冒险的,因为很难确定它不是 UB。应尽可能避免。
在我们的讲座中,我们讨论了 std::list
的内部可能实现。讲师展示了创建虚拟节点以指示列表结尾的方法:
struct Node { Node* prev; ... }
Node* dummy = reinterpret_cast<Node*>(new int8_t[sizeof(Node)]);
dummy->prev = ... /* last node */;
他们声称最后一行 可能 导致未定义的行为。我不明白为什么这可能不安全。归根结底,我们只是在不取消引用预设的情况下覆盖了几位。如果这真的是个问题,它不会在 reinterpret_cast
ing 时发生吗?
那么,这里是否真的发生了未定义的行为,如果是,为什么?
首先,对于你的第二行
Node* dummy = reinterpret_cast<Node*>(new int8_t[sizeof(Node)]);
自己。
new
return 是指向它创建的 int8_t
个对象数组中第一个 int8_t
对象的指针。
reinterpret_cast
的行为取决于指针所代表地址的对齐方式。如果它适合 Node
类型的对象对齐,那么它将保持指针值不变(因为在 pointer-interconvertible 的位置确实没有 Node
对象 int8_t
对象)。如果未适当对齐,returned 指针值将是未指定。
Unspecified 意味着我们不知道该值是什么,但不会导致未定义的行为。
因此,在任何情况下,第二行和转换本身都没有未定义的行为。
行
dummy->prev = ... /* last node */;
要求dummy
指向的对象实际上是一个Node
对象。否则它有未定义的行为。如上所述,reinterpret_cast
给我们一个未指定的值或指向 int8_t
对象的指针。这已经是一个问题,我认为至少需要 std::launder
调用。
即使从 new
得到的指针 return 正确对齐,我们仍然需要检查 Node
对象是否存在。我们当然没有在任何显示的操作中显式创建任何此类对象,但是隐式对象创建可能会有所帮助(至少从 C++20 开始,但我想这应该是针对旧标准版本的缺陷报告).
具体来说,可以在 unsigned char
、std::byte
类型的数组中隐式创建对象,并且有一些限制,char
(CWG 2489) when the lifetime of the array is started. int8_t
is usually signed char
and I think is not allowed to be either of the three previously mentioned types (see e.g. this question)。这消除了 UB 的唯一可能出路。
所以你的第三行代码确实有未定义的行为。
即使您通过将类型形式 int8_t
更改为 std::byte
来解决此问题,在 Node
的细节上还有其他限制,以使隐式对象创建成为可能。可能还需要添加一个 std::launder
调用。
所有这些还没有考虑对齐,因为虽然 new[]
获得内存有一些对齐要求,但我认为标准要求 new[]
本身到 return 一个指针比 char
、unsigned char
和 std::byte
数组 new
.
许多这些问题可能可以通过使用例如operator new
直接,可能提供对齐请求,并确保 Node
是一个聚合。
在任何情况下编写这样的代码都是非常冒险的,因为很难确定它不是 UB。应尽可能避免。