Google Cloud Platform speech to text - 自定义转录文本

Google Cloud Platform speech to text - customize transcribed text

我正在使用 Google 云平台 (GCP) model adaptation feature of speech to text 来识别行业独有的话语,例如当用户说 JSON 时,应将其转录为 JSON 而不是 'Jason'。我通过使用短语集和关联的提升值来实现这一点。

此示例中的文本被转录为 Json。我希望将其转录为 JSON(全部大写)

我已经仔细阅读了 GCP 文档,但没有找到与我的问题相关的文档。我也尝试过 Azure,其中 there's an option to upload a pronunciation file。我正在 GCP 中寻找类似的解决方案。

我自己试过,结果一样。即使 maxAlternatives 设置为 20.

目前没有像发音文件这样的选项,所以我创建了一个Feature Request来请求它的实现。
记得给它加注星标,以便在每次更新时收到电子邮件通知。并且,如果可以的话,添加您的业务案例 and/or 影响以提供全貌。

目前,解决方法是在您的代码上实施“捕手”。 在 Python 中,您可以使用 replace()upper()
符合以下内容:

for result in response.results:
    print("Transcript: {}".format(result.alternatives[0].transcript.replace('Json', 'JSON')))

如果您需要捕获更多单词,请使用 if 条件遍历列表:

result='I need a Json file'
lower_words = ['Json', 'csv']
upper_words = ['JSON', 'CSV']
for result in response.results:
    for lower_word, upper_word in zip(lower_words, upper_words):
        if lower_word in result:
            print("Transcript: {}".format(result.alternatives[0].transcript.replace(lower_word, upper_word)))

当然,这将在满足条件的每次迭代时打印,因此如果结果中可能有多个单词,您可能需要存储中间结果并在嵌套循环后打印。

我希望您不要更改太多单词,否则这会大大降低您的应用程序速度。