尝试预测音频时出错:无法计算输出张量("ctc/ExpandDims_22:0"

Error when trying to predict audio: Could not compute output Tensor ("ctc/ExpandDims_22:0"

所以我尝试使用 librispeech 数据集 dev-clean 创建语音识别神经网络。我尝试将代码从 https://github.com/soheil-mpg/Speech-Recognition 转换为 jupyter notebook。

似乎一切正常。该模型可以训练并且不会给出任何错误。 但是在使用 model.predict() 时出现以下错误:

AssertionError: Could not compute output Tensor("ctc/ExpandDims_22:0", shape=(None, 1), dtype=float32)

我将 Jupyter Notebook 上传到 https://github.com/jake-salmone/ASR

代码几乎相同,唯一不同的是,我不使用 json,而是使用 pandas DataFrame。

我找到了答案!:模型的输出尺寸错误。
当然ctc loss应该只在训练的时候加入到模型中。

添加ctc loss时,应该只发生在函数范围内:

model = add_ctc_loss(model)

并创建一个只在函数范围内添加损失的训练函数,不会改变模型。