如何为语音识别准备数据集
How to prepare a dataset for speech recognition
我需要训练一个双向 LSTM 模型来识别离散语音(从 0 到 9 的单个数字)我已经录制了 100 个演讲者的语音。接下来我该怎么办? (假设我将它们分成单独的 .wav 文件,每个文件包含一个数字)我将使用 mfcc 作为网络的功能。
此外,如果我要使用支持 CTC(Connectionist Temporal Classification)的库,我想知道数据集的差异
我需要训练一个双向 LSTM 模型来识别离散语音(从 0 到 9 的单个数字)我已经录制了 100 个演讲者的语音。接下来我该怎么办? (假设我将它们分成单独的 .wav 文件,每个文件包含一个数字)我将使用 mfcc 作为网络的功能。
此外,如果我要使用支持 CTC(Connectionist Temporal Classification)的库,我想知道数据集的差异