如何从 Google 助理接收字符串形式的回答,而不是音频流

How to receive answer from Google Assistant as a String, not as an audio stream

我正在使用 Assistant SDK 中的 python 库通过 gRPC 进行语音识别。我将语音识别为一个字符串,并以从 \googlesamples\assistant\__main__.py 调用方法 resp.result.spoken_request_text 的形式返回,我还使用方法 resp.audio_out.audio_data 从助手 API 获得了作为音频流的答案来自 \googlesamples\assistant\__main__.py

我想知道是否也可以从服务中获取字符串形式的答案(希望它在服务定义中可用或包含在内),以及我如何才能access/request 字符串形式的答案。

提前致谢。

目前(Assistant SDK Developer Preview 1),没有直接的方法可以做到这一点。您或许可以将音频流输入语音到文本系统,但这真的开始变得愚蠢了。

在 Google I/O 时与工程师就此主题进行了交谈,他们表示这样做在技术上存在一些复杂性,但他们了解用例。他们需要看到这样的问题才能知道人们想要这个功能。

希望它能进入即将发布的开发者预览版。

更新:

google.assistant.embedded.v1alpha2

小助手SDK包含字段supplemental_display_text

which is meant to extract the assistant response as text which aids the user's understanding

或显示在屏幕上。仍然使文本对开发人员可用。 Goolge assistant documentation