如何使用 TIMIT 数据集进行语音识别

How to use TIMIT Dataset for speech recognition

我们正在进行语音转文本项目。我们在这个领域还很新，如果您能帮助我们，我们将不胜感激。

我们的目标是使用MFCC从音频数据集中提取特征，使用CNN模型估计每个特征的可能性，然后使用HMM模型将音频数据转换为文本。除了标签之外，所有这些步骤对我们来说都是清楚的。我们在预处理数据的时候，把音频数据分成更小的时间帧，每帧长约45ms，每帧之间间隔10ms。

我将使用 TIMIT 数据集。我对数据集的标签完全困惑。我检查了 TIMIT 数据集，发现标签文件有 3 列。第一个是 BEGIN_SAMPLE :== 段的起始整数样本数，第二个是段的结束整数样本数，最后一个是 PHONETIC_LABEL :== 单音标。我们如何使用这个标签？第一列和第二列重要吗？感谢您的宝贵时间

第一列是音素的开始时间，第二列是结束时间。

例如
0 3050 h#
3050 4559 嘘

h#（无声）从0开始到0.305s结束
sh从0.305s开始到0.4559s结束

您可以使用这些标签来训练 frame-level 音素分类器，然后使用 HMM 构建 ASR。 Kaldi 工具包有 TIMIT 数据集的收据。

此外，可以在没有这些时间标签的情况下构建 ASR 系统。 GMM-HMM 模型可以帮助获得那些时间戳（对齐）。 End-to-end ASR 也可以学习对齐方式。

根据我的经验，想要快速构建 ASR 系统的新手更容易感到沮丧。因为它比听起来复杂得多。所以如果你想深入ASR领域，你需要花时间在理论和技能上。不然我觉得还是多靠有相关经验的人吧

个人意见。

如何使用 TIMIT 数据集进行语音识别

How to use TIMIT Dataset for speech recognition

speech-recognition

labeling