MALLET

Question

我正在使用 MALLET 进行文本分类（使用朴素贝叶斯），我知道有一个 FeatureSequence2FeatureVector() 方法可以创建可用作 Pipe 一部分的特征向量。我的问题是，当我们使用不带参数的 FeatureSequence2FeatureVector() 和 FeatureSequence2FeatureVector(boolean x) 时，实施了哪种加权模式。对于第二个，我想 x=TRUE 应该导致伯努利朴素贝叶斯。但是没有参数和 x=FALSE 版本呢？

Answer 1

默认情况下，FeatureSequence2FeatureVector 会将特征值设置为原始特征计数。例如，字符串 "dog cat dog" 将映射到

{ "dog": 2.0, "cat": 1.0 }

将 true 作为参数传递将导致

{ "dog" 1.0, "cat": 1.0 }

MALLET - 哪种加权模式？

MALLET - Which weighting schema?

classification