括号对 cmusphinx 结果意味着什么?

What does the parenthesis mean with a cmusphinx result?

我的输出是:

['<s>', 'does', 'any', '<sil>', 'unable', 'to(3)', 'bear', 'the', 'senate', 'is', 'touching', 'emotion', 'turned', 'away', '<sil>', 'and(2)', 'ill', 'afford', '<sil>', 'without', 'seeking', 'any', 'further', 'explanation', '<sil>', 'and(2)', 'attracted', 'towards(2)', 'him', 'and', 'irresistible', 'magnetism', 'which', 'draws', 'us', 'towards(2)', 'those', 'who', 'have', 'loved', 'to(3)', 'people', 'for(2)', 'whom', 'we', 'mourn', '<sil>', 'extended', 'his', 'hand', 'towards(2)', 'the(2)', 'young', 'man', '</s>']

我明白 <s><sil> 的作用。但是 to(3) 呢?

如果不检查字典文件(通常是扩展名为 .dict 的文件),很难绝对肯定地说,该文件将每个单词与其发音相关联。然后您可以检查它与(假设)to(2)to 有何不同。 (或者即使这些变化根本存在。)

但是,由于许多拼写相同的单词有不同的发音,因此惯例是在字典中考虑那些具有不同符号的单词,如 official tutorial 中所述。

A dictionary can also contain alternative pronunciations. In that case you can designate them with a number in parentheses:

the TH IH

the(2) TH AH

在上面的例子中,软件会根据说话者的不同发音进行不同的识别。

如果您使用的是预制的官方模型,那么就是这种情况。假设您不太关心 how 它的发音,而更关心 what 它的发音,您可以忽略括号。