用 Vulkan 渲染小文本？

Rendering small text with Vulkan?

vulkan

字体渲染库（比如 freetype）提供了一个函数，它可以获取轮廓字体文件（比如 .ttf）和字符代码，并在主机内存中生成相应字形的位图。

对于小文本（比如最大 30x30 像素的字形）将这些字形渲染到 Vulkan 帧缓冲区的最有效方法是什么？

我考虑过的一些选项可能是：

每次按需使用字体渲染库渲染字形，使用主机代码将它们 blit 到单个主机端图像，包含整个“文本框”，传输主机端图像文本框到设备本地图像，然后使用要绘制的文本框的片段着色器/图像采样器渲染四边形（像普通图像一样）。
在程序启动时循环遍历主机端的所有字形，将它们呈现为字形位图。与 1 相同，但从缓存的字形位图中 blit（占用大约 1 MB 主机内存）。
将字形位图单独缓存到设备本地图像中。不是咬住主机端，而是为每个字形设备端渲染一个四边形，并每次将图像采样器设置为相应的字形。（不确定绘制调用如何工作？每次使用不同的组合图像采样器，每个字形一个绘制调用？）
将所有的字形位图缓存到一个大的设备端图像中（比如布置在一个大网格中）。使用单个设备端组合图像采样器，并推送参数来描述包含字形图像的子区域。每个字形一次绘制调用，每次更新推送参数。
与 4 类似，但使用单个实例化绘制调用，而不是推送参数，而是使用随实例变化的输入属性。
还有别的吗？

我的意思是，像 Unreal 或 Unity 或 Godot 等常见游戏引擎如何解决这个问题？是否有典型的方法或最佳实践？

首先，一些注意事项：

使用 freetype 光栅化一个大约 30px 的字形可能需要 on the order of 10μs。这是一个非常小的一次性成本，但渲染例如。每帧 100 个字形会严重消耗您的帧预算（如果我们假设数学简单到 100 * 10μs == 1ms）。
状态更改（如描述符更新）相对昂贵。更改您呈现的每个字符的绑定描述符具有不可忽略的成本。这可以通过批处理字符绘制（绘制所有 A，然后绘制 B 等）来限制，但使用推送常量通常是 fastest.
具有小网格（例如四边形或单个三角形）的实例化绘图在某些 GPU 上可能非常慢，因为它们不会在一个 GPU 上安排多个实例单身wavefront/warp。如果您正在渲染具有 6 个顶点的四边形，并且单个执行单元可以处理 64 个顶点，您最终可能会浪费 58/64 = 90.6% 的可用顶点着色容量。

这表明 4 是您的最佳选择（尽管 5 可能具有可比性）；您可以通过缓存绘制调用的结果来进一步优化该方法。假设您有一些菜单文本：

需要第一帧，将所有文本渲染为中间图像。
需要的每一帧，都使用中间图像进行一次绘制调用。（如果不需要透明度，也可以 blit 文本。）