音素级发音正确性 Microsoft Speech
Phoneme-level Pronunciation Correctness Microsoft Speech
我正在尝试使用 Microsoft Cognitive Service 的发音评估服务(使用 Python API)。目前,我可以根据我在请求中传递的参考文本显示音素细分(以及置信度分数)。我的问题是:有什么方法可以得到真正所说内容的音素分解吗?换句话说.. 可以将检测到的音素作为输出,而不是系统根据参考文本等待识别的音素?
这是我目前拥有的输出图片。但是我不想得到组成单词“can't”的音素,而是想得到输出中传递的单词的音素
{
"Word": "can't",
"AccuracyScore": 85.0,
"ErrorType": "None",
"Offset": 39900000,
"Duration": 6500000,
"Phonemes": [
{
"Duration": 1300000,
"Phoneme": "k",
"AccuracyScore": 89.0,
"Offset": 39900000
},
{
"Duration": 800000,
"Phoneme": "aa",
"AccuracyScore": 86.0,
"Offset": 41300000
},
{
"Duration": 1600000,
"Phoneme": "n",
"AccuracyScore": 74.0,
"Offset": 42200000
},
{
"Duration": 2500000,
"Phoneme": "t",
"AccuracyScore": 89.0,
"Offset": 43900000
}
]
},
提前致谢
翻阅Github上Pronunciation assessment and the sample code的文档,好像可以通过打印reference_text
.
得到演讲者所说的内容
您也可以通过 PronunciationAssessmentConfig.to_json()(pronunciation_config.to_json()
) 获取所有参数(包括其中的 reference_text
)。
我正在尝试使用 Microsoft Cognitive Service 的发音评估服务(使用 Python API)。目前,我可以根据我在请求中传递的参考文本显示音素细分(以及置信度分数)。我的问题是:有什么方法可以得到真正所说内容的音素分解吗?换句话说.. 可以将检测到的音素作为输出,而不是系统根据参考文本等待识别的音素?
这是我目前拥有的输出图片。但是我不想得到组成单词“can't”的音素,而是想得到输出中传递的单词的音素
{
"Word": "can't",
"AccuracyScore": 85.0,
"ErrorType": "None",
"Offset": 39900000,
"Duration": 6500000,
"Phonemes": [
{
"Duration": 1300000,
"Phoneme": "k",
"AccuracyScore": 89.0,
"Offset": 39900000
},
{
"Duration": 800000,
"Phoneme": "aa",
"AccuracyScore": 86.0,
"Offset": 41300000
},
{
"Duration": 1600000,
"Phoneme": "n",
"AccuracyScore": 74.0,
"Offset": 42200000
},
{
"Duration": 2500000,
"Phoneme": "t",
"AccuracyScore": 89.0,
"Offset": 43900000
}
]
},
提前致谢
翻阅Github上Pronunciation assessment and the sample code的文档,好像可以通过打印reference_text
.
您也可以通过 PronunciationAssessmentConfig.to_json()(pronunciation_config.to_json()
) 获取所有参数(包括其中的 reference_text
)。