有什么方法可以流畅地接收音频并将其发送到后端
Is there any way to fluently receive audio and send it to the backend
我想创建一个 Web 应用程序(Flask- 一个 Flashcard AI),其中一部分是一个机器人,需要通过语音识别和文本到语音直接与人类交互。我为此安装了 pyttsx3 和 speech_recognition,我感到困惑的是我应该如何获取用户的音频作为输入,然后将其发送到后端。我试图查找 YouTube 教程并向其他人询问相同的内容,我唯一的成功是学习了 Navigator.MediaDevices.getUserMedia
。我想让通信流畅,我也必须将数据发送到后端。我不确定如何将它发送到后端并流畅地获取用户媒体,我可以使用 Navigator.MediaDevices.getUserMedia
并将其转换为音频文件(还不确定该怎么做,但我想我会想最终,让用户上传录音根本就不是一件好事 ),但这会占用很多空间数据库中 space 个。
如果你只想根据语音处理一些动作,你可以使用语音 API。
https://developer.mozilla.org/en-US/docs/Web/API/Web_Speech_API
此 API 将能够为您提供基于文本的字幕,您可以轻松地将其存储在数据库中。
如果您需要在服务器端存储音频,您可以将其转换为一些简单的格式,例如 mp3
或 aac
以保存 space.
我想创建一个 Web 应用程序(Flask- 一个 Flashcard AI),其中一部分是一个机器人,需要通过语音识别和文本到语音直接与人类交互。我为此安装了 pyttsx3 和 speech_recognition,我感到困惑的是我应该如何获取用户的音频作为输入,然后将其发送到后端。我试图查找 YouTube 教程并向其他人询问相同的内容,我唯一的成功是学习了 Navigator.MediaDevices.getUserMedia
。我想让通信流畅,我也必须将数据发送到后端。我不确定如何将它发送到后端并流畅地获取用户媒体,我可以使用 Navigator.MediaDevices.getUserMedia
并将其转换为音频文件(还不确定该怎么做,但我想我会想最终,让用户上传录音根本就不是一件好事 ),但这会占用很多空间数据库中 space 个。
如果你只想根据语音处理一些动作,你可以使用语音 API。 https://developer.mozilla.org/en-US/docs/Web/API/Web_Speech_API
此 API 将能够为您提供基于文本的字幕,您可以轻松地将其存储在数据库中。
如果您需要在服务器端存储音频,您可以将其转换为一些简单的格式,例如 mp3
或 aac
以保存 space.