reinterpret_cast 从原始内存中获取的指针重新分配是否会导致 UB?

Does reassignment of pointers acquired by reinterpret_cast from raw memory cause UB?

在我们的讲座中,我们讨论了 std::list 的内部可能实现。讲师展示了创建虚拟节点以指示列表结尾的方法:

struct Node { Node* prev; ... }

Node* dummy = reinterpret_cast<Node*>(new int8_t[sizeof(Node)]);
dummy->prev = ... /* last node */;

他们声称最后一行 可能 导致未定义的行为。我不明白为什么这可能不安全。归根结底,我们只是在不取消引用预设的情况下覆盖了几位。如果这真的是个问题,它不会在 reinterpret_casting 时发生吗?

那么,这里是否真的发生了未定义的行为,如果是,为什么?

首先,对于你的第二行

Node* dummy = reinterpret_cast<Node*>(new int8_t[sizeof(Node)]);

自己。

new return 是指向它创建的 int8_t 个对象数组中第一个 int8_t 对象的指针。

reinterpret_cast的行为取决于指针所代表地址的对齐方式。如果它适合 Node 类型的对象对齐,那么它将保持指针值不变(因为在 pointer-interconvertible 的位置确实没有 Node 对象 int8_t 对象)。如果未适当对齐,returned 指针值将是未指定

Unspecified 意味着我们不知道该值是什么,但不会导致未定义的行为。

因此,在任何情况下,第二行和转换本身都没有未定义的行为。


dummy->prev = ... /* last node */;

要求dummy指向的对象实际上是一个Node对象。否则它有未定义的行为。如上所述,reinterpret_cast 给我们一个未指定的值或指向 int8_t 对象的指针。这已经是一个问题,我认为至少需要 std::launder 调用。

即使从 new 得到的指针 return 正确对齐,我们仍然需要检查 Node 对象是否存在。我们当然没有在任何显示的操作中显式创建任何此类对象,但是隐式对象创建可能会有所帮助(至少从 C++20 开始,但我想这应该是针对旧标准版本的缺陷报告).

具体来说,可以在 unsigned charstd::byte 类型的数组中隐式创建对象,并且有一些限制,char (CWG 2489) when the lifetime of the array is started. int8_t is usually signed char and I think is not allowed to be either of the three previously mentioned types (see e.g. this question)。这消除了 UB 的唯一可能出路。

所以你的第三行代码确实有未定义的行为。


即使您通过将类型形式 int8_t 更改为 std::byte 来解决此问题,在 Node 的细节上还有其他限制,以使隐式对象创建成为可能。可能还需要添加一个 std::launder 调用。

所有这些还没有考虑对齐,因为虽然 new[] 获得内存有一些对齐要求,但我认为标准要求 new[] 本身到 return 一个指针比 charunsigned charstd::byte 数组 new.

的元素类型所需的对齐更强

许多这些问题可能可以通过使用例如operator new 直接,可能提供对齐请求,并确保 Node 是一个聚合。

在任何情况下编写这样的代码都是非常冒险的,因为很难确定它不是 UB。应尽可能避免。