使用 WebSockets 的 IBM Watson 语音转文本

Question

我正在尝试使用 Watson Developer Cloud java SDK 来转录大型音频文件。我尝试了 Sessionless 方法并且它工作正常，但是当我尝试 WebSockets 方法时，事情变得不可靠。

大多数情况下，该方法只会 return 而不会 SpeechResult 传递给委托；它很少起作用，但它只转录前几秒。

这是我的代码的样子：

static SpeechResults transcript = null;
private static String SpeechToText(String audioFile) throws FileNotFoundException {
        SpeechToText service = new SpeechToText();
        service.setUsernameAndPassword("<!!USERNAME!!>", "<!!PASSWORD!!>");
        service.setEndPoint("https://stream.watsonplatform.net/speech-to-text/api");

        RecognizeOptions options = new RecognizeOptions();
        options.contentType("audio/ogg;codecs=opus");
        options.continuous(Boolean.TRUE);
        options.inactivityTimeout(-1);
        options.model(Models.GetModelName(Models.SpeechModelEnums.ArabicBroadband));
        options.timestamps(Boolean.TRUE);
        options.wordAlternativesThreshold(0.5);
        options.wordConfidence(Boolean.TRUE);

        options.interimResults(Boolean.FALSE);

        File audio = new File(audioFile);

        //This is my sessionless call
        //SpeechResults transcript = service.recognize(audio, options);


        service.recognizeUsingWebSockets(new FileInputStream(audio),  options, new BaseRecognizeDelegate()
        {
                @Override
                public void onMessage(SpeechResults speechResults){
                System.out.println(speechResults);                
                }
            }
        );

        return "";//transcript.toString();
    }

我已经启用连续。我尝试摆弄 interimResults 但没有用。

我做错了什么？

Answer 1

您提到的问题已在 3.0.0-RC1 版本中修复。
我有一个类似的问题，并添加了一个使用 WebSockets 识别音频文件的代码片段。

从 3.0.0-RC1 开始，README 中有一个 WebSocket 示例。

使用 WebSockets 的 IBM Watson 语音转文本

IBM Watson Speech to Text using WebSockets

java

ibm-cloud

speech-to-text

ibm-watson