我可以在没有终结点的情况下使用 Azure 语音资源吗?

Can I use the Azure Speech resource without an endpoint?

我可以在没有终结点的情况下使用 Azure 语音资源吗?

我正在学习微软教程。具体来说,我正在完成 this 实验。在本实验中,Speech 资源的应用程序客户端不使用端点,它仅使用密钥和位置。

文档中here也是如此:

To find the keys and location/region of a completed deployment, follow these steps:

1. Sign in to the Azure portal using your Microsoft account.

2. Select All resources, and select the name of your Cognitive Services resource.

3. On the left pane, under RESOURCE MANAGEMENT, select Keys and Endpoint.

Each subscription has two keys; you can use either key in your application. To copy/paste a key to your code editor or other location, select the copy button next to each key, switch windows to paste the clipboard contents to the desired location.

Additionally, copy the LOCATION value, which is your region ID (ex. westus, westeurope) for SDK calls.

如您所见,没有任何关于端点的信息。这意味着语音资源客户端将以某种方式知道如何通过密钥和位置连接到语音资源。

我真的很困惑,因为我认为没有端点应该是不可能的。

例如here 使用语音资源的代码示例不使用任何端点(仅键和位置):

    import os
    from playsound import playsound
    from azure.cognitiveservices.speech import SpeechConfig, SpeechRecognizer, AudioConfig
    
    # Get spoken command from audio file
    file_name = 'light-on.wav'
    audio_file = os.path.join('data', 'speech', file_name)
    
    # Configure speech recognizer
    speech_config = SpeechConfig(cog_key, cog_location)
    audio_config = AudioConfig(filename=audio_file) # Use file instead of default (microphone)
    speech_recognizer = SpeechRecognizer(speech_config, audio_config)
    
    # Use a one-time, synchronous call to transcribe the speech
    speech = speech_recognizer.recognize_once()
    
    # Play the original audio file
    playsound(audio_file)
    
    # Show transcribed text from audio file
    print(speech.text)

我的意思是我什至无法想象语音资源客户端(由 Microsoft 实现)如何知道它应该连接到我的 Azure 门户中的资源,而不是没有端点的其他门户中的资源。对我来说就像一个魔法,所以我肯定在这里遗漏了一些东西。

感谢您试用 Azure 语音服务。

您完全正确 - 语音服务确实像任何其他此类云服务一样使用端点。

如果您的代码使用 Speech SDK,则 SDK 会根据您提供的信息为您提供正确的端点,即 位置

我从你的代码中看出,你正在尝试在线转录。 Here 您将找到此方案中使用的所有区域端点。

还有其他端点,例如 Speech-to-text REST API V3 or Text-to-speech。它们都在文档中进行了描述。