Keras 和 TensorFlow Hub 版 MobileNetV2 的区别

Difference between Keras and TensorFlow Hub Version of MobileNetV2

我正在研究一种迁移学习方法,在使用来自 keras.applications 的 MobileNetV2 和 TensorFlow Hub 上可用的方法时得到了截然不同的结果。这对我来说似乎很奇怪,因为两个版本都声称 here and here to extract their weights from the same checkpoint mobilenet_v2_1.0_224。 这是重现差异的方法,您可以找到 Colab Notebook here:

!pip install tensorflow-gpu==2.1.0
import tensorflow as tf
import numpy as np
import tensorflow_hub as hub
from tensorflow.keras.applications.mobilenet_v2 import MobileNetV2

def create_model_keras():
  image_input = tf.keras.Input(shape=(224, 224, 3))
  out = MobileNetV2(input_shape=(224, 224, 3),
                  include_top=True)(image_input)
  model = tf.keras.models.Model(inputs=image_input, outputs=out)
  model.compile(optimizer='adam', loss=["categorical_crossentropy"])
  return model

def create_model_tf():
  image_input = tf.keras.Input(shape=(224, 224 ,3))
  out = hub.KerasLayer("https://tfhub.dev/google/tf2-preview/mobilenet_v2/classification/4",
                      input_shape=(224, 224, 3))(image_input)
  model = tf.keras.models.Model(inputs=image_input, outputs=out)
  model.compile(optimizer='adam', loss=["categorical_crossentropy"])
  return model

当我尝试对随机批次进行预测时,结果不相等:

keras_model = create_model_keras()
tf_model = create_model_tf()
np.random.seed(42)
data = np.random.rand(32,224,224,3)
out_keras = keras_model.predict_on_batch(data)
out_tf = tf_model.predict_on_batch(data)
np.array_equal(out_keras, out_tf)

来自 keras.applications 的版本的输出总和为 1,但来自 TensorFlow Hub 的版本不是。两个版本的形状也不同:TensorFlow Hub 有 1001 个标签,keras.applications 有 1000 个。

np.sum(out_keras[0]), np.sum(out_tf[0])

打印(1.0000001, -14.166359)

造成这些差异的原因是什么?我错过了什么吗?

编辑 18.02.2020

正如 Szymon Maszke 指出的那样,TFHub 版本 returns 登录。这就是为什么我向 create_model_tf 添加了一个 Softmax 层,如下所示: out = tf.keras.layers.Softmax()(x)

arnoegw 提到 TfHub 版本需要规范化为 [0,1] 的图像,而 keras 版本需要规范化为 [-1,1]。当我对测试图像使用以下预处理时:

from tensorflow.keras.applications.mobilenet_v2 import preprocess_input
img = tf.keras.preprocessing.image.load_img("/content/panda.jpeg", target_size=(224,224))
img = tf.keras.preprocessing.image.img_to_array(img)
img = preprocess_input(img)
img = tf.io.read_file("/content/panda.jpeg")
img = tf.image.decode_jpeg(img)
img = tf.image.convert_image_dtype(img, tf.float32)
img = tf.image.resize(img, (224,224))

两者都正确预测了相同的标签且以下条件为真:np.allclose(out_keras, out_tf[:,1:], rtol=0.8)

编辑 2 18.02.2020 在我写之前,不可能将格式相互转换。这是由错误引起的。

有几个记录在案的差异:

  • 就像 Szymon 所说的,TF Hub 版本 returns logits(在将它们转化为概率的 softmax 函数之前),这是一种常见的做法,因为交叉熵损失可以是从 logits 中计算出更大的数值稳定性。

  • TF Hub 模型假定 float32 输入在 [0,1] 范围内,这是您从 tf.image.decode_jpeg(...) 后跟 tf.image.convert_image_dtype(..., tf.float32) 得到的结果。 Keras 代码使用特定于模型的范围(可能是 [-1,+1])。

  • TF Hub 模型在返回其所有 1001 输出 classes 时更完整地反映了原始 SLIM 检查点。正如文档中链接的 ImageNetLabels.txt 中所述,添加的 class 0 是 "background"(又名 "stuff")。这就是物体检测用来指示图像背景而不是任何已知 class.

  • 的物体的原因