Tensorflow gpu 无法训练我的 Xception 模型

Tensorflow gpu not able to train my Xception model

我正在使用 tensorflow-gpu 训练 Xception 模型。我收到此错误:

FailedPreconditionError:发现 2 个根错误。 (0) 失败的先决条件:从容器读取资源变量 block14_sepconv2_bn_5/moving_variance 时出错:localhost。这可能意味着变量未初始化。未找到:资源 localhost/block14_sepconv2_bn_5/moving_variance/N10tensorflow3VarE 不存在。 [[{{节点FusedBatchNormV3/ReadVariableOp_1}}]] [[block9_sepconv3_bn_5/cond/else/_9661/OptionalFromValue_3/_1548]] (1) 前提条件失败:从容器读取资源变量 block14_sepconv2_bn_5/moving_variance 时出错:localhost。这可能意味着变量未初始化。未找到:资源 localhost/block14_sepconv2_bn_5/moving_variance/N10tensorflow3VarE 不存在。 [[{{节点FusedBatchNormV3/ReadVariableOp_1}}]] 0 次成功的操作。 忽略 0 个派生错误。

当我重新加载时,它在不同的转换层上给出了错误。我以前没有使用过 gpu,所以我不知道它是如何工作的。感谢您的帮助!

问题已解决。虽然我不确定发生了什么,但我认为这是一个内存问题。下面的代码行对我控制内存使用有很大帮助:

从 tensorflow.compat.v1 导入 ConfigProto 来自 tensorflow.compat.v1 导入 InteractiveSession

config = ConfigProto() config.gpu_options.allow_growth = True config.gpu_options.per_process_gpu_memory_fraction = 0.5 session = InteractiveSession(config=config)