NLP:如何正确规范化性别分类的特征?

NLP: How to correctly normalise a feature for gender classification?

注意 在我开始之前,这个F-measure与精度和召回无关,它的标题和定义取自这个paper

我有一个称为 F-measure 的功能,用于衡量给定文本的正式程度。它主要用于文本的性别分类,这是我作为一个项目所做的工作。

F-measure定义为:

F = 0.5 * (名词频率+形容词频率+介词频率+冠词频率-代词 频率。 – 动词频率。 – 副词频率。 – 感叹词频率。 + 100)

频率取自给定文本(例如,博客 post)。

我想规范化此功能以用于分类任务。最初,我的第一个想法是,由于值 F 受给定文本中的单词数限制 (text_length),所以我首先想到 F 并除以 text_length。其次,也是最后,由于该度量可以取正值和负值(可以从等式中推断出),我然后想到平方 (F/text_length) 到只得到一个正值。

尝试这个我发现标准化值似乎不太正确,因为我开始在(低于 0.10)测试该功能的所有情况下获得非常小的值,我认为原因可能是因为我正在对值进行平方,这实际上会使它变小,因为它是分数的平方。但是,如果我只想保证正值,则这是必需的。我不确定还需要考虑什么来改进规范化,以便在 [0,1] 内产生一个很好的分布,并且想知道是否有某种策略可以正确规范化 NLP 特征。

我应该如何处理特征的规范化,我可能做错了什么?

如果你仔细阅读文章,你会发现该度量已经归一化了:

F will then vary between 0 and 100%

之所以这样,是因为公式中的"frequencies"是这样计算的:

The frequencies are here expressed as percentages of the number of words belonging to a particular category with respect to the total number of words in the excerpt.

即您应该按单词总数对它们进行归一化(正如您所建议的那样)。但之后不要忘记将每个乘以 100。