提高 Google Cloud Speech API 的准确性

Improving accuracy of Google Cloud Speech API

我目前正在从我的 Mac OS 计算机上的网页录制音频，并通过云语音 api 运行生成转录本。但是，结果不是那么准确，结果中有大量缺失的单词。

是否有任何步骤可以帮助我获得更准确的结果？

以下是我将音频转换为文本所采取的步骤：

使用 Soundflower 将音频输出从我的声卡传送到麦克风输入。
从网站播放音频
使用quickTime player录制音频并保存为.m4a文件。
使用命令行工具ffmpeg将.m4a文件转换为 .flac，并将 2 个音频通道（立体声）合并为 1 个音频通道（单声道）。
将 .flac 文件上传到 Google 云存储。该文件的采样率为 44100Hz，每个样本有 24 位。
通过 node.js 客户端库使用 longRunningRecognize api，指向 Google 云存储中的文件。

从 Speech-to-Text API 方面，我建议您确认您是否遵循 Best Practices 建议，例如避免过多背景噪音和多人同时通话，因为这些方面会影响服务识别。

我认为你的 采样率 和 无松散编解码器 ；但是，请记住音频 pre-processing 会影响音频质量。在这些情况下，最好避免重新采样，不过，您可以尝试使用不同的音频格式来验证哪种格式可以获得最准确的结果。

此外，您可以使用常用的 languageCode and phrase hints API 属性来提高识别准确度。