在运行时添加新 3D 对象的最佳方式

The best way to add a new 3D object at runtime

vulkan

到目前为止，我一直在启动期间创建 3D 对象。但现在我需要动态添加它们。还有什么可以更简单的，我想...

现在的主要问题是如何以最快的方式上传新对象的数据，并找出数据何时上传。

这是我的设置：

我正在使用 vulkan memory allocator library，所以我没有内存管理负担。
我打算为每个对象使用单独的 VkBuffer - 这样我就不需要管理偏移量、对齐方式，而且 add/remove 对象会更容易。

这是我的 thoughts/questions:

如何上传数据？我希望缓冲区仅对 gpu 可见，这意味着我需要一个暂存缓冲区。
如果我使用暂存缓冲区，我需要知道数据何时可以在 gpu 上使用。我不想冲洗管道并等待。我看到的唯一方法是为每个对象使用栅栏，并且仅在该栅栏准备就绪时调用 draw 命令。
如果我使用暂存缓冲区并想在短帧期间上传多个对象，我需要以某种方式确保该暂存缓冲区的部分不会被不同的对象覆盖。为此，我需要保持它的大，处理偏移量的对齐。但是有多大？

我很确定我过于复杂了。我相信应该有一个更简单的模式。你会怎么做？

I believe there should be a much simpler pattern.

这是 Vulkan；这是一个明确的低级 API。 “简单”不是它的目标。

总的来说，您的 Vulkan 代码需要编写以适应硬件的功能。这是获得性能的最佳方式。

需要做出的第一个决定是您是否需要分期。仅当您的设备的 DEVICE_LOCAL 内存不可映射时才需要暂存（用于缓冲区副本）。是的，有（集成的）GPU 可以映射 DEVICE_LOCAL 内存。如果是这样，那么你可以直接写到你需要数据去的地方。

如果需要暂存，则需要确定硬件是否支持独立的仅传输队列。如果是这样，那么您可能会通过使用它获得性能优势。并非所有硬件都支持仅传输队列，因此您的应用程序需要进行调整。此外，仅传输队列可能对发生在这些队列上的内存传输的粒度有限制，因此您需要检查您的流媒体策略是否符合该特定硬件的限制。

此外，如果没有合适的传输队列，您可以使用第二个计算或图形队列来创建传输队列的效果...如果硬件支持多个排队。能够在不同的队列上提交传输命令和渲染命令是一件好事，假设您正在利用线程（即：将批处理提交到不同线程上的不同队列）。

如果您能够使用单独的队列进行传输（无论是真正的传输队列还是单独的 compute/graphics 队列），那么您就可以使用信号量了。传输数据的批处理必须在完成时发出信号量；这是 vkQueueSubmit 调用中的批处理的一部分。主队列上为某些进程使用传输数据的批处理需要在该信号量上 wait。所以两个线程都需要使用相同的 VkSemaphore 对象。信号量上的等待应该有一个全局内存屏障，以使内存可见。

棘手的部分是这样的：您不能提交等待信号量的批处理，直到发出信号已提交的批处理的提交调用。您不必等到完成，但必须等到传输队列上的 vkQueueSubmit 调用返回。所以你需要一种在不同线程之间传输信号量的方法，或者你可以在同一个线程上发出两个提交命令。

如果您不使用第二个队列，那么事情会稍微简单一些。

您仍然希望在不同的线程上构建传输命令缓冲区本身（以利用线程 CB 构建）。但是现在需要将该 CB 传达给负责提交渲染内容的线程。并且这个通信通道需要知道这个 CB 包含传输命令，一些渲染 CB 进程应该等待。

最简单和最灵活的方法是构建传输 CB，以便最后一个命令是 vkCmdSetEvent 命令（第一个命令是 vkCmdResetEvent 以将其从之前的命令重置使用框架）。然后提交线程只需要创建一个小的 CB，它只包含一个 vkCmdWaitEvents 命令，等待将要设置的传输事件。该命令应发出一个完整的内存屏障，并且该 CB 应在传输 CB 和任何从传输数据读取的渲染 CB 之间执行。

它的灵活性在于过程的结构。它的结构类似于多队列版本的工作方式。在这两种情况下，一个单独的线程需要与渲染提交线程进行通信（在一种情况下，一个信号量；在另一种情况下，一个 CB 和一个事件）。并且渲染提交线程需要做一些事情来等待那个“东西”，但不会中断构建渲染命令本身的过程（在一种情况下，您只需更改批处理以等待信号量；在另一种情况下，您插入等待事件的 CB）。

如果你想更聪明地了解执行依赖关系，你甚至可以让传输操作转发有关哪些管道阶段需要等待操作的信息。但这主要是一种优化。

事情是这样的：所有的暂存案例都不是性能友好的。它们是有问题的，因为在传输操作正在进行时您不能做任何事情。情况就是这样，因为......你正试图从你正在写入的同一帧中的内存中读取。那是不好。

您应该努力延迟渲染任何加载未完成的对象。或者换句话说，您想在需要新对象之前加载数据，而不是在您需要它们的同一帧上。这就是流式传输系统所做的：它们先发制人地加载即将需要但不是现在需要的数据。

But how big?

只有您和您的用例可以回答这个问题。如果您以固定大小的块进行流式传输（您应该尽可能这样做），那么这很容易：您的暂存缓冲区的大小应该是一个或两个流式块。如果您的渲染系统更灵活，对更高级别的代码施加的限制更少，那么您的暂存缓冲区和流式传输系统需要更灵活。对此没有正确答案；这完全取决于它的使用方式。

欢迎使用显式、低级 APIs。

在运行时添加新 3D 对象的最佳方式

The best way to add a new 3D object at runtime

vulkan