如何在python中使用google语音识别api?
How to use google speech recognition api in python?
我有一个 mp3 文件,我想使用 Google 的语音识别功能从该文件中提取文本。任何可以找到文档或示例的想法都将不胜感激。
看看 Google Cloud Speech API,它使开发人员能够将音频转换为文本 [...] API 可识别 80 多种语言和变体 [...]
您可以创建一个免费帐户来获得数量有限的 API 请求。
如何:
您需要先安装 gcloud python module & google-api-python-client 模块:
pip install --upgrade gcloud
pip install --upgrade google-api-python-client
然后在 Cloud Platform Console 中,转到“项目”页面并 select 或创建一个新项目。在您需要为您的项目启用计费之后,然后 enable Cloud Speech API.
启用 Google Cloud Speech API 后,单击转到凭据按钮以设置您的 Cloud Speech API 凭据
请参阅 Set Up a Service Account 了解有关如何从您的代码授权云语音 API 服务的信息
您应该获得一个服务帐户密钥文件(在 JSON 中)和一个 GOOGLE_APPLICATION_CREDENTIALS 环境变量,它将允许您对 Speech API
进行身份验证
完成后,download the audio raw file from google and also the speech-discovery_google_rest_v1.json 来自 google
修改之前下载的 JSON 文件以设置您的凭据密钥
然后确保已将 GOOGLE_APPLICATION_CREDENTIALS 环境变量设置为 .json 文件的完整路径:
export GOOGLE_APPLICATION_CREDENTIALS=/path/to/service_account_file.json
还有
确保您已将 GCLOUD_PROJECT 环境变量设置为 Google 云项目的 ID:
export GCLOUD_PROJECT=your-project-id
假设全部完成,您可以创建一个 tutorial.py 文件,其中包含:
import argparse
import base64
import json
from googleapiclient import discovery
import httplib2
from oauth2client.client import GoogleCredentials
DISCOVERY_URL = ('https://{api}.googleapis.com/$discovery/rest?'
'version={apiVersion}')
def get_speech_service():
credentials = GoogleCredentials.get_application_default().create_scoped(
['https://www.googleapis.com/auth/cloud-platform'])
http = httplib2.Http()
credentials.authorize(http)
return discovery.build(
'speech', 'v1beta1', http=http, discoveryServiceUrl=DISCOVERY_URL)
def main(speech_file):
"""Transcribe the given audio file.
Args:
speech_file: the name of the audio file.
"""
with open(speech_file, 'rb') as speech:
speech_content = base64.b64encode(speech.read())
service = get_speech_service()
service_request = service.speech().syncrecognize(
body={
'config': {
'encoding': 'LINEAR16', # raw 16-bit signed LE samples
'sampleRate': 16000, # 16 khz
'languageCode': 'en-US', # a BCP-47 language tag
},
'audio': {
'content': speech_content.decode('UTF-8')
}
})
response = service_request.execute()
print(json.dumps(response))
if __name__ == '__main__':
parser = argparse.ArgumentParser()
parser.add_argument(
'speech_file', help='Full path of audio file to be recognized')
args = parser.parse_args()
main(args.speech_file)
然后运行:
python tutorial.py audio.raw
我有一个 mp3 文件,我想使用 Google 的语音识别功能从该文件中提取文本。任何可以找到文档或示例的想法都将不胜感激。
看看 Google Cloud Speech API,它使开发人员能够将音频转换为文本 [...] API 可识别 80 多种语言和变体 [...] 您可以创建一个免费帐户来获得数量有限的 API 请求。
如何:
您需要先安装 gcloud python module & google-api-python-client 模块:
pip install --upgrade gcloud
pip install --upgrade google-api-python-client
然后在 Cloud Platform Console 中,转到“项目”页面并 select 或创建一个新项目。在您需要为您的项目启用计费之后,然后 enable Cloud Speech API.
启用 Google Cloud Speech API 后,单击转到凭据按钮以设置您的 Cloud Speech API 凭据
请参阅 Set Up a Service Account 了解有关如何从您的代码授权云语音 API 服务的信息
您应该获得一个服务帐户密钥文件(在 JSON 中)和一个 GOOGLE_APPLICATION_CREDENTIALS 环境变量,它将允许您对 Speech API
进行身份验证完成后,download the audio raw file from google and also the speech-discovery_google_rest_v1.json 来自 google
修改之前下载的 JSON 文件以设置您的凭据密钥 然后确保已将 GOOGLE_APPLICATION_CREDENTIALS 环境变量设置为 .json 文件的完整路径:
export GOOGLE_APPLICATION_CREDENTIALS=/path/to/service_account_file.json
还有
确保您已将 GCLOUD_PROJECT 环境变量设置为 Google 云项目的 ID:
export GCLOUD_PROJECT=your-project-id
假设全部完成,您可以创建一个 tutorial.py 文件,其中包含:
import argparse
import base64
import json
from googleapiclient import discovery
import httplib2
from oauth2client.client import GoogleCredentials
DISCOVERY_URL = ('https://{api}.googleapis.com/$discovery/rest?'
'version={apiVersion}')
def get_speech_service():
credentials = GoogleCredentials.get_application_default().create_scoped(
['https://www.googleapis.com/auth/cloud-platform'])
http = httplib2.Http()
credentials.authorize(http)
return discovery.build(
'speech', 'v1beta1', http=http, discoveryServiceUrl=DISCOVERY_URL)
def main(speech_file):
"""Transcribe the given audio file.
Args:
speech_file: the name of the audio file.
"""
with open(speech_file, 'rb') as speech:
speech_content = base64.b64encode(speech.read())
service = get_speech_service()
service_request = service.speech().syncrecognize(
body={
'config': {
'encoding': 'LINEAR16', # raw 16-bit signed LE samples
'sampleRate': 16000, # 16 khz
'languageCode': 'en-US', # a BCP-47 language tag
},
'audio': {
'content': speech_content.decode('UTF-8')
}
})
response = service_request.execute()
print(json.dumps(response))
if __name__ == '__main__':
parser = argparse.ArgumentParser()
parser.add_argument(
'speech_file', help='Full path of audio file to be recognized')
args = parser.parse_args()
main(args.speech_file)
然后运行:
python tutorial.py audio.raw