如何估计 CoreML 模型的最大运行时占用空间(以兆字节为单位)
How to estimate a CoreML model's maximal runtime footprint (in megabytes)
假设我有一个在 TensorFlow
/Keras
/Caffe
等中制作的网络模型。
我可以使用 CoreML Converters
API 从中获取 CoreML 模型文件 (.mlmodel
)。
现在,由于我有一个 .mlmodel
文件,并且知道 input shape
和 output shape
,如何估计最大 RAM 占用空间?
我知道一个模型可以有很多层,它们的大小可以比 input/output 形状大得多。
所以问题是:
- 最大
mlmodel
内存占用是否可以通过某些 formula/API 获知,无需编译和 运行 应用程序?
- 最大占用空间是更接近最大中间层的内存大小,还是更接近所有层大小的总和?
如有任何建议,我们将不胜感激。
由于我是 CoreML 的新手,您可以提供任何反馈,如果需要,我会尝试改进问题。
恕我直言,无论你在一天结束时想出什么公式,都必须基于网络可训练参数的数量。
分类网络可以通过迭代找到,也可以使用现有的API。
在喀拉斯。
import keras.applications.resnet50 as resnet
model =resnet.ResNet50(include_top=True, weights=None, input_tensor=None, input_shape=None, pooling=None, classes=2)
print model.summary()
Total params: 23,591,810
Trainable params: 23,538,690
Non-trainable params: 53,120
火炬:
def count_parameters(model):
return sum(p.numel() for p in model.parameters() if p.requires_grad)
对于检测器,您可能需要对网络的所有重要部分执行相同的操作,包括 backbone、rpn 等,无论您的网络由什么组成。
第二个重要参数是网络的精度。你一定听说过量化。它改变了所有或某些层的浮点数的精度,并且可以是静态的(当网络以所需的精度进行训练和校准时)或当网络在训练后转换时是动态的。最简单的动态量化将浮点数替换为线性层上的某种整数。 pytorch 中的 Maskrcnn 可使文件大小减小 30%,并在可训练参数数量相同的情况下显着减少内存消耗。
所以最后的等式就像大小 = number_of_trainable_parameters * 精度 * X,其中 X 是您必须针对您的特定网络和 coreml 细节找出的一些因素)
几年前我写了一篇博客 post,其中涉及其中的一些内容:https://machinethink.net/blog/how-fast-is-my-model/
但是,请记住,Core ML 的实际行为是未知的。它很可能会尝试尽可能高效(即为不再需要的张量重用内存)但它是一个黑盒子,所以谁知道呢。找出答案的唯一方法是在实际设备上试用您的模型。
假设我有一个在 TensorFlow
/Keras
/Caffe
等中制作的网络模型。
我可以使用 CoreML Converters
API 从中获取 CoreML 模型文件 (.mlmodel
)。
现在,由于我有一个 .mlmodel
文件,并且知道 input shape
和 output shape
,如何估计最大 RAM 占用空间?
我知道一个模型可以有很多层,它们的大小可以比 input/output 形状大得多。
所以问题是:
- 最大
mlmodel
内存占用是否可以通过某些 formula/API 获知,无需编译和 运行 应用程序? - 最大占用空间是更接近最大中间层的内存大小,还是更接近所有层大小的总和?
如有任何建议,我们将不胜感激。 由于我是 CoreML 的新手,您可以提供任何反馈,如果需要,我会尝试改进问题。
恕我直言,无论你在一天结束时想出什么公式,都必须基于网络可训练参数的数量。
分类网络可以通过迭代找到,也可以使用现有的API。
在喀拉斯。
import keras.applications.resnet50 as resnet
model =resnet.ResNet50(include_top=True, weights=None, input_tensor=None, input_shape=None, pooling=None, classes=2)
print model.summary()
Total params: 23,591,810
Trainable params: 23,538,690
Non-trainable params: 53,120
火炬:
def count_parameters(model):
return sum(p.numel() for p in model.parameters() if p.requires_grad)
对于检测器,您可能需要对网络的所有重要部分执行相同的操作,包括 backbone、rpn 等,无论您的网络由什么组成。
第二个重要参数是网络的精度。你一定听说过量化。它改变了所有或某些层的浮点数的精度,并且可以是静态的(当网络以所需的精度进行训练和校准时)或当网络在训练后转换时是动态的。最简单的动态量化将浮点数替换为线性层上的某种整数。 pytorch 中的 Maskrcnn 可使文件大小减小 30%,并在可训练参数数量相同的情况下显着减少内存消耗。
所以最后的等式就像大小 = number_of_trainable_parameters * 精度 * X,其中 X 是您必须针对您的特定网络和 coreml 细节找出的一些因素)
几年前我写了一篇博客 post,其中涉及其中的一些内容:https://machinethink.net/blog/how-fast-is-my-model/
但是,请记住,Core ML 的实际行为是未知的。它很可能会尝试尽可能高效(即为不再需要的张量重用内存)但它是一个黑盒子,所以谁知道呢。找出答案的唯一方法是在实际设备上试用您的模型。