发射概率 table 的最佳数据结构是什么?
What is the best data structure for an emission probability table?
对于我的项目,我有一个单词数据集(例如狗、运行、猫),每个单词都标有词性(例如动词、名词、形容词)。我需要创建一个数据结构来存储每个单词将成为特定词性的总数。我目前正在使用一个 3d 数组,每个数组中的第一个元素是一个单词,然后是词性,每个 pos 后面的实例总数。下面是一个例子。
emissiontable = [[Fight, [Verb, 100], [Noun, 120]], [Run,[Verb,100],[Noun,120]]]
这看起来很乏味,可能有更好的方法来做到这一点。特别是因为我必须将每个总数转换为概率(x 词是 x 词性的概率)。这也称为发射概率 table。有更好的数据结构吗?
对于我的项目,我有一个单词数据集(例如狗、运行、猫),每个单词都标有词性(例如动词、名词、形容词)。我需要创建一个数据结构来存储每个单词将成为特定词性的总数。我目前正在使用一个 3d 数组,每个数组中的第一个元素是一个单词,然后是词性,每个 pos 后面的实例总数。下面是一个例子。
emissiontable = [[Fight, [Verb, 100], [Noun, 120]], [Run,[Verb,100],[Noun,120]]]
这看起来很乏味,可能有更好的方法来做到这一点。特别是因为我必须将每个总数转换为概率(x 词是 x 词性的概率)。这也称为发射概率 table。有更好的数据结构吗?