有没有办法使用 HTK 获得单音素概率?
Is there a way to get the monophone probability using HTK?
理想情况下,我正在寻找的是一种获取音频文件的特定片段是特定 phone 的概率向量的方法。类似于:
输入:
- wav 文件
- 开始位置(例如@1.4 秒)
- 持续时间(例如 500 毫秒)
输出:
- SIL 2.324*10^-3
- AA 1.514*10^-4
- AE 1.482*10^-2
- ...
- ZH 5.03*10^-5
您可以在强制对齐模式下获得运行宁HVite
的分数。恐怕你必须 运行 对于你拥有的每个音素:
HVite -A -D -T 1 -l '*' -o NTW -C HTK.cfg -a \
-H macros \
-H hmmdefs \
-i acoustic_score_AA.mlf \
-y lab \
-I AA.mlf \
-S index.scp \
words phones
输出文件 acoustic_score_AA.mlf
将包含结果。我
words
词汇文件的内容应该是这样的:
AA AA
AE AE
....
ZH ZH
据我所知,phones
必须包含音素列表(HMM 模型)。
这里的技巧是输入 .mlf 文件的内容。例如,AA.mlf
应该是这样的:
#!MLF!#
"*/S0001.lab"
AA
.
这将强制 HVite 对整个话语应用 AA
模型。必须提前对音频文件进行分块。
理想情况下,我正在寻找的是一种获取音频文件的特定片段是特定 phone 的概率向量的方法。类似于:
输入:
- wav 文件
- 开始位置(例如@1.4 秒)
- 持续时间(例如 500 毫秒)
输出:
- SIL 2.324*10^-3
- AA 1.514*10^-4
- AE 1.482*10^-2
- ...
- ZH 5.03*10^-5
您可以在强制对齐模式下获得运行宁HVite
的分数。恐怕你必须 运行 对于你拥有的每个音素:
HVite -A -D -T 1 -l '*' -o NTW -C HTK.cfg -a \
-H macros \
-H hmmdefs \
-i acoustic_score_AA.mlf \
-y lab \
-I AA.mlf \
-S index.scp \
words phones
输出文件 acoustic_score_AA.mlf
将包含结果。我
words
词汇文件的内容应该是这样的:
AA AA
AE AE
....
ZH ZH
据我所知,phones
必须包含音素列表(HMM 模型)。
这里的技巧是输入 .mlf 文件的内容。例如,AA.mlf
应该是这样的:
#!MLF!#
"*/S0001.lab"
AA
.
这将强制 HVite 对整个话语应用 AA
模型。必须提前对音频文件进行分块。