MALLET - 哪种加权模式?

MALLET - Which weighting schema?

我正在使用 MALLET 进行文本分类(使用朴素贝叶斯),我知道有一个 FeatureSequence2FeatureVector() 方法可以创建可用作 Pipe 一部分的特征向量。我的问题是,当我们使用不带参数的 FeatureSequence2FeatureVector() 和 FeatureSequence2FeatureVector(boolean x) 时,实施了哪种加权模式。对于第二个,我想 x=TRUE 应该导致伯努利朴素贝叶斯。但是没有参数和 x=FALSE 版本呢?

默认情况下,FeatureSequence2FeatureVector 会将特征值设置为原始特征计数。例如,字符串 "dog cat dog" 将映射到

{ "dog": 2.0, "cat": 1.0 }

true 作为参数传递将导致

{ "dog" 1.0, "cat": 1.0 }