Microsoft Custom Speech Service 接受音频文件和转录一一
Microsoft Custom Speech Service to accept audio file and transcription one by one
我创建了一个自定义声学模型(其中包括一组 zip 文件中语音数据的音频文件,以及文本文件中由制表符分隔的每个音频文件的转录)并将其导入。创建部署后,我尝试通过上传音频文件来测试端点,它按预期返回了文本转录。
但计划如下:将 Microsoft 提供的 OOB 声学模型与自定义语音合并。尝试了 returns 4 个语音到文本转录的 WPF 示例 (https://github.com/Microsoft/Cognitive-Speech-STT-Windows)。我们想要的是 each 消息(一个音频文件),向用户提供这 4 个转录,他将选择正确的一个。
现在我们要将录制的音频文件和正确的转录内容提供给自定义语音服务。我们如何以编程方式导入声学数据并为其创建模型(而不是手动上传音频的整个 zip 文件和具有文件名和键值对的文本文件转录等)? (每次都是编辑已有的声学数据,不是导入新的)
或者如果我们不能一个一个地喂它(每次用户结束谈话时),我们可以先将音频文件收集到一个 zip 文件中,然后将文件名和转录收集到一个文本文件中,一次完整对话结束。但问题仍然是如何以编程方式进行导入和建模。或者甚至有可能。
感谢您的帮助!
自定义语音服务目前不提供 API 来以编程方式执行您所描述的内容。但是,有计划在未来几个月内发布 API。
我创建了一个自定义声学模型(其中包括一组 zip 文件中语音数据的音频文件,以及文本文件中由制表符分隔的每个音频文件的转录)并将其导入。创建部署后,我尝试通过上传音频文件来测试端点,它按预期返回了文本转录。
但计划如下:将 Microsoft 提供的 OOB 声学模型与自定义语音合并。尝试了 returns 4 个语音到文本转录的 WPF 示例 (https://github.com/Microsoft/Cognitive-Speech-STT-Windows)。我们想要的是 each 消息(一个音频文件),向用户提供这 4 个转录,他将选择正确的一个。
现在我们要将录制的音频文件和正确的转录内容提供给自定义语音服务。我们如何以编程方式导入声学数据并为其创建模型(而不是手动上传音频的整个 zip 文件和具有文件名和键值对的文本文件转录等)? (每次都是编辑已有的声学数据,不是导入新的)
或者如果我们不能一个一个地喂它(每次用户结束谈话时),我们可以先将音频文件收集到一个 zip 文件中,然后将文件名和转录收集到一个文本文件中,一次完整对话结束。但问题仍然是如何以编程方式进行导入和建模。或者甚至有可能。
感谢您的帮助!
自定义语音服务目前不提供 API 来以编程方式执行您所描述的内容。但是,有计划在未来几个月内发布 API。