使用 SRILM 的语言模型
language model with SRILM
我正在尝试使用 SRILM 构建语言模型。
我有一个短语列表,我使用以下方法创建模型:
./ngram-count -text corpus.txt -order 3 -ukndiscount -interpolate -unk -lm corpus.lm
在此之后,我尝试举一些例子来查看不同短语的概率,结果发现它的对数概率为 -0.9。
问题是训练中有一些单词的对数概率较低。比如有5个"abatantuono"它的对数概率是-4.8.
我觉得这很奇怪,因为短语 <s> <unk> </s>
比 <s> abatantuono </s>
更可能,并且在训练集中 3-gram <s> abatantuono </s>
也存在!
可以在这里看到:
% ./ngram -lm corpus.lm -ppl ../../../corpus.txt.test -debug 2 -unk
reading 52147 1-grams
reading 316818 2-grams
reading 91463 3-grams
abatantuono
p( abatantuono | <s> ) = [2gram] 1.6643e-05 [ -4.77877 ]
p( </s> | abatantuono ...) = [3gram] 0.717486 [ -0.144186 ]
1 sentences, 1 words, 0 OOVs
0 zeroprobs, logprob= -4.92296 ppl= 289.386 ppl1= 83744.3
abatantonno
p( <unk> | <s> ) = [1gram] 0.00700236 [ -2.15476 ]
p( </s> | <unk> ...) = [1gram] 0.112416 [ -0.949172 ]
1 sentences, 1 words, 0 OOVs
0 zeroprobs, logprob= -3.10393 ppl= 35.6422 ppl1= 1270.36
file ../../../corpus.txt.test: 2 sentences, 2 words, 0 OOVs
0 zeroprobs, logprob= -8.02688 ppl= 101.56 ppl1= 10314.3
您认为问题可能是什么?
谢谢
我正在尝试使用 SRILM 构建语言模型。 我有一个短语列表,我使用以下方法创建模型:
./ngram-count -text corpus.txt -order 3 -ukndiscount -interpolate -unk -lm corpus.lm
在此之后,我尝试举一些例子来查看不同短语的概率,结果发现它的对数概率为 -0.9。
问题是训练中有一些单词的对数概率较低。比如有5个"abatantuono"它的对数概率是-4.8.
我觉得这很奇怪,因为短语 <s> <unk> </s>
比 <s> abatantuono </s>
更可能,并且在训练集中 3-gram <s> abatantuono </s>
也存在!
可以在这里看到:
% ./ngram -lm corpus.lm -ppl ../../../corpus.txt.test -debug 2 -unk
reading 52147 1-grams
reading 316818 2-grams
reading 91463 3-grams
abatantuono
p( abatantuono | <s> ) = [2gram] 1.6643e-05 [ -4.77877 ]
p( </s> | abatantuono ...) = [3gram] 0.717486 [ -0.144186 ]
1 sentences, 1 words, 0 OOVs
0 zeroprobs, logprob= -4.92296 ppl= 289.386 ppl1= 83744.3
abatantonno
p( <unk> | <s> ) = [1gram] 0.00700236 [ -2.15476 ]
p( </s> | <unk> ...) = [1gram] 0.112416 [ -0.949172 ]
1 sentences, 1 words, 0 OOVs
0 zeroprobs, logprob= -3.10393 ppl= 35.6422 ppl1= 1270.36
file ../../../corpus.txt.test: 2 sentences, 2 words, 0 OOVs
0 zeroprobs, logprob= -8.02688 ppl= 101.56 ppl1= 10314.3
您认为问题可能是什么?
谢谢