如何使用 TIMIT 数据集进行语音识别

How to use TIMIT Dataset for speech recognition

我们正在进行语音转文本项目。我们在这个领域还很新,如果您能帮助我们,我们将不胜感激。

我们的目标是使用MFCC从音频数据集中提取特征,使用CNN模型估计每个特征的可能性,然后使用HMM模型将音频数据转换为文本。除了标签之外,所有这些步骤对我们来说都是清楚的。我们在预处理数据的时候,把音频数据分成更小的时间帧,每帧长约45ms,每帧之间间隔10ms。

我将使用 TIMIT 数据集。我对数据集的标签完全困惑。我检查了 TIMIT 数据集,发现标签文件有 3 列。第一个是 BEGIN_SAMPLE :== 段的起始整数样本数,第二个是段的结束整数样本数,最后一个是 PHONETIC_LABEL :== 单音标。我们如何使用这个标签?第一列和第二列重要吗? 感谢您的宝贵时间

第一列是音素的开始时间,第二列是结束时间。

例如
0 3050 h#
3050 4559 嘘

h#(无声)从0开始到0.305s结束
sh从0.305s开始到0.4559s结束

您可以使用这些标签来训练 frame-level 音素分类器,然后使用 HMM 构建 ASR。 Kaldi 工具包有 TIMIT 数据集的收据。

此外,可以在没有这些时间标签的情况下构建 ASR 系统。 GMM-HMM 模型可以帮助获得那些时间戳(对齐)。 End-to-end ASR 也可以学习对齐方式。

根据我的经验,想要快速构建 ASR 系统的新手更容易感到沮丧。因为它比听起来复杂得多。所以如果你想深入ASR领域,你需要花时间在理论和技能上。不然我觉得还是多靠有相关经验的人吧

个人意见。