网络语音 API - 不要忽略环境语音 noise/music
Web Speech API - DON'T ignore ambient noise/music
所以尽管我仍然有点震惊,Google 的默认语音识别完全完全忽略了 music/ambient 噪音。问题是,对于我的用例,我希望它真正尝试转录音乐!
我正在使用 Chrome 72 中的网络语音 API 和他们的演示。
即使将扬声器放在麦克风旁边,我也无法让它从音乐中拾取内容。
我也无法获取任何 Youtube 视频或在线播放的视频。
它也不会接收我的 Alexa 所说的任何内容。
我有一个 Android 所以我假设他们正在通过播放他们用来取消录音的听不见的声音来做类似于亚马逊广告的事情?有什么方法可以禁用它吗?
如果我直接从 Mac 或 PC 播放音乐,它也不起作用。
然而,如果我与某人视频聊天(如果重要的话使用 WebRTC)并且他们说了一些通过扬声器播放的内容,它会转录。
对于任何想知道的人,我希望它转录在没有背景音乐的情况下在同一页面上播放的视频。我正在使用他们的演示代码来查看这是否可行。
有什么方法可以识别这些声音吗?
为了澄清,我具体询问如何为网络语音禁用此功能 API 而不是一般的语音识别。
Web Speech API 是一种从浏览器本身请求语音识别的非常具体的方式(在 Chrome 中它转到 Google,在 Firefox 中我相信他们有一个本地解决方案)。
这里有更多信息:https://developer.mozilla.org/en-US/docs/Web/API/Web_Speech_API 但它缺少文档,因为它因浏览器而异,我特别要求在 Chrome 中避免这种情况。
请注意,webkitSpeechRecognition
记录麦克风的音频输入并将该数据发送到远程服务。执行语音识别的实际代码并未随 Chromium 源代码一起提供(Chrome 是从中构建的)。
W3C Web Speech API 规范不提供处理环境 noise/music 的默认方式。在 Chromium/Chrome 浏览器中,开发人员无法控制远程服务如何处理捕获的音频或远程服务返回的文字记录。除了至少一个标记为 WON'T FIX
的 Chromium 错误报告和在 GitHub 提交的问题之外,没有记录用户生物识别数据并发送到远程服务这一事实。
您可能对开源项目 Tensorflow 和 CMU Pocket Sphinx 感兴趣,您可以在其中创建自己的模型。 Mozilla Voice Web 包含大量可用于训练 TTS/STT 模型的数据。
所以尽管我仍然有点震惊,Google 的默认语音识别完全完全忽略了 music/ambient 噪音。问题是,对于我的用例,我希望它真正尝试转录音乐!
我正在使用 Chrome 72 中的网络语音 API 和他们的演示。
即使将扬声器放在麦克风旁边,我也无法让它从音乐中拾取内容。
我也无法获取任何 Youtube 视频或在线播放的视频。
它也不会接收我的 Alexa 所说的任何内容。
我有一个 Android 所以我假设他们正在通过播放他们用来取消录音的听不见的声音来做类似于亚马逊广告的事情?有什么方法可以禁用它吗?
如果我直接从 Mac 或 PC 播放音乐,它也不起作用。
然而,如果我与某人视频聊天(如果重要的话使用 WebRTC)并且他们说了一些通过扬声器播放的内容,它会转录。
对于任何想知道的人,我希望它转录在没有背景音乐的情况下在同一页面上播放的视频。我正在使用他们的演示代码来查看这是否可行。
有什么方法可以识别这些声音吗?
为了澄清,我具体询问如何为网络语音禁用此功能 API 而不是一般的语音识别。
Web Speech API 是一种从浏览器本身请求语音识别的非常具体的方式(在 Chrome 中它转到 Google,在 Firefox 中我相信他们有一个本地解决方案)。
这里有更多信息:https://developer.mozilla.org/en-US/docs/Web/API/Web_Speech_API 但它缺少文档,因为它因浏览器而异,我特别要求在 Chrome 中避免这种情况。
请注意,webkitSpeechRecognition
记录麦克风的音频输入并将该数据发送到远程服务。执行语音识别的实际代码并未随 Chromium 源代码一起提供(Chrome 是从中构建的)。
W3C Web Speech API 规范不提供处理环境 noise/music 的默认方式。在 Chromium/Chrome 浏览器中,开发人员无法控制远程服务如何处理捕获的音频或远程服务返回的文字记录。除了至少一个标记为 WON'T FIX
的 Chromium 错误报告和在 GitHub 提交的问题之外,没有记录用户生物识别数据并发送到远程服务这一事实。
您可能对开源项目 Tensorflow 和 CMU Pocket Sphinx 感兴趣,您可以在其中创建自己的模型。 Mozilla Voice Web 包含大量可用于训练 TTS/STT 模型的数据。