返回总机数据处理

Returnn Switchboard data processing

任何人都可以指导我如何处理 Switchboard 数据集以使用 RETURNN 进行训练吗?我确实看到 BlissDataset class 似乎是为总机设计的,但我不清楚我应该在示例中给出的路径中包含什么:

Example:
    ./tools/dump-dataset.py "
      {'class':'BlissDataset',
       'path': '/u/tuske/work/ASR/switchboard/corpus/xml/train.corpus.gz',
       'bpe_file': '/u/zeyer/setups/switchboard/subwords/swb-bpe-codes',
       'vocab_file': '/u/zeyer/setups/switchboard/subwords/swb-vocab'}"

总机数据集有几个包含音频的文件夹,即 swb1_d2/data/*.sph 和文字记录 swb1_LDC97S62/swb_ms98_transcriptions/**/* 我不太确定如何进行此操作以获得可用于训练 RETURNN 的数据集。

在我们的小组(亚琛工业大学),我们使用 GitHub 上发布的配置。如您所见,这个使用 ExternSprintDataset。该数据集使用 该实现使用 Sprint(公开称为 RWTH ASR (RASR),参见 here)作为外部工具(子流程中的 运行)来处理数据(特征提取等)。 Sprint 获得了一个 Bliss XML 文件,该文件描述了所有带有音频路径和音频偏移量以及 t运行 脚本的片段,并且它还获得了用于特征提取和其他内容的进一步配置。有一个开源版本的 RASR,它应该可以工作,但要让它工作可能有点复杂。

BlissDataset 计划成为一个更简单的替代品。但是,实施是不完整的。此外,您仍然需要通过某种方式自己生成 Bliss XML(我们已经使用一些自己的内部脚本来根据 LDC 官方数据准备它)。

所以,不幸的是,还没有简单的方法。实际上,我认为最简单的方法是想出另一种自定义格式,它可能类似于 LibriSpeechDataset 实现,或者可能完全相同,然后您可以重复使用 LibriSpeechDataset,或者至少是其中的一部分。该数据集实现采用某种 zip 格式的数据,其中包含 txt 文件中的 t运行 脚本和 ogg 或 wav 文件中的音频。它使用 librosa 进行 MFCC 特征提取(或其他特征类型)。我计划为 Switchboard 实现它,然后重现结果,但是我还没有时间,也不确定什么时候能做到。但如果你想自己尝试,我会很乐意尽我所能帮助你。起点是查看 LibriSpeechDataset 并了解其格式。