是否可以使用来自 cuda 内核内部的预训练张量流模型进行推理?
Is it possible to do inference using a pre-trained tensorflow model from inside cuda kernel?
我需要使用 cuda 内核内部的张量流模型进行推理。为此,我需要可以从 cuda 内核内部调用的用于推理的 DEVICE 函数。在 tensorflow C++ API.
中没有找到类似的东西
我绝不是 Tensorflow 方面的专家。但是请考虑 运行 GPU 在非平凡网络上的推理通常会涉及多个内核调用。您正在寻找的那种 API 似乎不太可能存在。即使假设从其他内核中启动内核在理论上是可能的(例如,使用动态并行),Tensorflow 的全部要点是在远高于 CUDA 的任何抽象级别上描述您的计算。您使用 Tensorflow 为您映射到 CUDA。 Tensorflow 基本上是一种编译器,可以将您的计算图转换为它认为在给定目标硬件上执行图描述的计算的最佳方式。这种映射的细节是高度特定于目标的,并且可能会发生变化。在 public API 中公开任何此类内容似乎违背了 Tensorflow 的目标。当然,Tensorflow 是开源的,所以人们总是可以去看看并弄清楚 Tensorflow 生成的设备代码到底是什么样的,以及如何调用它。但是,这样做所需的工作量很可能令人望而却步;每个新版本都会破坏整个事情……
与其问如何手动调用 Tensorflow 会话的内部问题,不如让 Tensorflow 调用您,这样更有成效。看起来,例如,通过 adding a custom operation,您可以让 Tensorflow 调用您的 GPU 代码……
我需要使用 cuda 内核内部的张量流模型进行推理。为此,我需要可以从 cuda 内核内部调用的用于推理的 DEVICE 函数。在 tensorflow C++ API.
中没有找到类似的东西我绝不是 Tensorflow 方面的专家。但是请考虑 运行 GPU 在非平凡网络上的推理通常会涉及多个内核调用。您正在寻找的那种 API 似乎不太可能存在。即使假设从其他内核中启动内核在理论上是可能的(例如,使用动态并行),Tensorflow 的全部要点是在远高于 CUDA 的任何抽象级别上描述您的计算。您使用 Tensorflow 为您映射到 CUDA。 Tensorflow 基本上是一种编译器,可以将您的计算图转换为它认为在给定目标硬件上执行图描述的计算的最佳方式。这种映射的细节是高度特定于目标的,并且可能会发生变化。在 public API 中公开任何此类内容似乎违背了 Tensorflow 的目标。当然,Tensorflow 是开源的,所以人们总是可以去看看并弄清楚 Tensorflow 生成的设备代码到底是什么样的,以及如何调用它。但是,这样做所需的工作量很可能令人望而却步;每个新版本都会破坏整个事情……
与其问如何手动调用 Tensorflow 会话的内部问题,不如让 Tensorflow 调用您,这样更有成效。看起来,例如,通过 adding a custom operation,您可以让 Tensorflow 调用您的 GPU 代码……