使用 Tensorflow 转录 IPA(国际音标)
IPA (International Phonetic Alphabet) Transcription with Tensorflow
我正在研究设计一个软件平台,以帮助语言学家和人类学家研究以前未研究过的语言。统计数据显示,大约有 1,000 种语言从未被各自使用群体以外的人研究过。
我的目标是利用 TensorFlow 打造一个平台,让语言学家能够更有效地研究和记录这些语言,并帮助他们为那些还没有书面系统的人创建书面系统。他们目前完成此类任务的方法之一是三方面的:1) 录制母语人士用该语言进行的对话,2) 听录音并尝试将其转录成 IPA,3) 从语音学,分析音素和语言的语音策略,最终为说话者创建一个书面系统。
我提议的平台会将研究时间从最少一年缩短到最多六个月。在开始之前,我有一些问题...
训练 TensorFlow 将实时音频转录成 IPA 需要什么?这已经完成了吗?如果是这样,我将如何为该项目利用以前的解决方案?使用 TensorFlow 甚至可以实现这样的项目吗?如果不是,您会推荐使用什么?
对于这个问题的严重性,我深表歉意。我在机器学习领域没有太多经验,因为我才刚刚开始这个项目的研究过程。感谢您的帮助!
我想我会先回答这个问题。由于问题很笼统,我的回答也必须很笼统。
需要什么。至少你必须有一个大的预转录数据集。理想情况下,将大量口语音频映射到语音字母表中的字符,这样系统就可以学习单个字符的发音,而不是整个转录单词的发音。如果不存在这样的数据集,则可以使用粒度更小的数据集,将单个单词映射到它们的转录。然后你需要一个模型,即用代码实现的实际神经网络架构。最后,您需要一些计算资源。这不是你可以随便训练的东西,你要么必须花一些时间在基于云的机器学习框架(比如 Google Cloud ML)上,要么构建一个相当昂贵的机器在家里训练。
做到了吗?我不知道。我不这么认为。已经有发表的论文报告了在转录语音的训练系统方面取得了不同程度的成功。例如,这里有一个 http://deeplearning.stanford.edu/lexfree/lexfree.pdf 看起来,由于您要转录的字母表是专门设计用于捕捉单词的发音方式,而不是仅仅写下单词,因此您在训练此类模型时可能会更成功。
TensorFlow 是否可行。是的,很有可能。 TensorFlow 非常适合实施大多数现代深度学习架构。除非您最终为此目的设计了一些非常奇怪和非常原始的模型,否则 TensorFlow 应该可以正常工作。
编辑:在第 1 部分进行一些思考之后,您将不得不使用数据集将口语单词映射到它们的转录,因为我预计相同的声音单独发音会有所不同从单词中使用相同的声音开始。
尽管是在 PyTorch 中,但实际上已经由 CMU 的一个小组完成了:https://github.com/xinjli/allosaurus
我正在研究设计一个软件平台,以帮助语言学家和人类学家研究以前未研究过的语言。统计数据显示,大约有 1,000 种语言从未被各自使用群体以外的人研究过。
我的目标是利用 TensorFlow 打造一个平台,让语言学家能够更有效地研究和记录这些语言,并帮助他们为那些还没有书面系统的人创建书面系统。他们目前完成此类任务的方法之一是三方面的:1) 录制母语人士用该语言进行的对话,2) 听录音并尝试将其转录成 IPA,3) 从语音学,分析音素和语言的语音策略,最终为说话者创建一个书面系统。
我提议的平台会将研究时间从最少一年缩短到最多六个月。在开始之前,我有一些问题...
训练 TensorFlow 将实时音频转录成 IPA 需要什么?这已经完成了吗?如果是这样,我将如何为该项目利用以前的解决方案?使用 TensorFlow 甚至可以实现这样的项目吗?如果不是,您会推荐使用什么?
对于这个问题的严重性,我深表歉意。我在机器学习领域没有太多经验,因为我才刚刚开始这个项目的研究过程。感谢您的帮助!
我想我会先回答这个问题。由于问题很笼统,我的回答也必须很笼统。
需要什么。至少你必须有一个大的预转录数据集。理想情况下,将大量口语音频映射到语音字母表中的字符,这样系统就可以学习单个字符的发音,而不是整个转录单词的发音。如果不存在这样的数据集,则可以使用粒度更小的数据集,将单个单词映射到它们的转录。然后你需要一个模型,即用代码实现的实际神经网络架构。最后,您需要一些计算资源。这不是你可以随便训练的东西,你要么必须花一些时间在基于云的机器学习框架(比如 Google Cloud ML)上,要么构建一个相当昂贵的机器在家里训练。
做到了吗?我不知道。我不这么认为。已经有发表的论文报告了在转录语音的训练系统方面取得了不同程度的成功。例如,这里有一个 http://deeplearning.stanford.edu/lexfree/lexfree.pdf 看起来,由于您要转录的字母表是专门设计用于捕捉单词的发音方式,而不是仅仅写下单词,因此您在训练此类模型时可能会更成功。
TensorFlow 是否可行。是的,很有可能。 TensorFlow 非常适合实施大多数现代深度学习架构。除非您最终为此目的设计了一些非常奇怪和非常原始的模型,否则 TensorFlow 应该可以正常工作。
编辑:在第 1 部分进行一些思考之后,您将不得不使用数据集将口语单词映射到它们的转录,因为我预计相同的声音单独发音会有所不同从单词中使用相同的声音开始。
尽管是在 PyTorch 中,但实际上已经由 CMU 的一个小组完成了:https://github.com/xinjli/allosaurus