音素级发音正确性 Microsoft Speech

Question

我正在尝试使用 Microsoft Cognitive Service 的发音评估服务（使用 Python API）。目前，我可以根据我在请求中传递的参考文本显示音素细分（以及置信度分数）。我的问题是：有什么方法可以得到真正所说内容的音素分解吗？换句话说.. 可以将检测到的音素作为输出，而不是系统根据参考文本等待识别的音素？

这是我目前拥有的输出图片。但是我不想得到组成单词“can't”的音素，而是想得到输出中传递的单词的音素

            {
                "Word": "can't", 
                "AccuracyScore": 85.0, 
                "ErrorType": "None", 
                "Offset": 39900000, 
                "Duration": 6500000, 
                "Phonemes": [
                    {
                        "Duration": 1300000, 
                        "Phoneme": "k", 
                        "AccuracyScore": 89.0, 
                        "Offset": 39900000
                    }, 
                    {
                        "Duration": 800000, 
                        "Phoneme": "aa", 
                        "AccuracyScore": 86.0, 
                        "Offset": 41300000
                    }, 
                    {
                        "Duration": 1600000, 
                        "Phoneme": "n", 
                        "AccuracyScore": 74.0, 
                        "Offset": 42200000
                    }, 
                    {
                        "Duration": 2500000, 
                        "Phoneme": "t", 
                        "AccuracyScore": 89.0, 
                        "Offset": 43900000
                    }
                ]
            },

提前致谢

Answer 1

翻阅Github上Pronunciation assessment and the sample code的文档，好像可以通过打印reference_text.

得到演讲者所说的内容

您也可以通过 PronunciationAssessmentConfig.to_json()(pronunciation_config.to_json()) 获取所有参数（包括其中的 reference_text）。

音素级发音正确性 Microsoft Speech

Phoneme-level Pronunciation Correctness Microsoft Speech

python

windows

phonetics

voice-recognition

microsoft-cognitive