词频特征归一化

Word Frequency Feature Normalization

我正在提取文档的特征。其中一项功能是 the frequency of the word in the document。问题是训练集和测试集的句子数量不一定相同。所以，我需要以某种方式规范化它。一种可能性（我想到了）是将单词的出现频率除以文档中的句子数量。我的主管告诉我，最好以对数方式对其进行归一化。我不知道那是什么意思。谁能帮帮我？

提前致谢，

PS: 我也看到了this这个话题，但是对我没有帮助。

首先要问的问题是，你后面用的是什么算法？对于许多算法来说，对词向量袋进行归一化就足够了，这样它总和为一个或其他一些范数为一个。

但是，您应该根据文档中的总字数进行标准化，而不是按照句子的数量进行标准化。例如，您的测试语料库可能有更长的句子。

我假设你的主管的建议意味着你不报告单词的计数，而是报告计数的对数。此外，我建议总体上查看 TF/IDF 度量。恕我直言，这在文本挖掘中更常见

'normalize it in a logarithmic way'大概就是简单的意思就是用log(frequency)代替frequency特征。

获取日志可能有用的一个原因是 Zipfian 单词出现的性质。

是的，有一种对数方式，叫做TF-IDF。

TF-IDF是词频和逆文档频率的乘积。

TF-IDF = （您在当前文档中出现的单词总数 ÷ 当前文档中的单词总数）* log(你的 collection 中的文档总数 ÷ 你的单词出现在你的 collection 中的文档的数量)

如果您使用 python，有一个名为 GENSIM 的不错的库，其中包含该算法，但您的数据 object 必须是来自 gensim.corpora 的字典。

你可以在这里找到一个例子：https://radimrehurek.com/gensim/models/tfidfmodel.html

tf-idf 帮助规范化 -> 使用 tf 和 tf-idf 参数检查结果，
dtm <- DocumentTermMatrix(语料库);dtm

<> Non-/sparse 个条目：27316/97548 稀疏度：78% 最大任期长度：22 加权：词频（tf）

dtm <- DocumentTermMatrix(corpus,control = list(weighting=weightTfIdf));dtm

<> Non-/sparse 个条目：24052/100812 稀疏度：81% 最大任期长度：22 加权：词频 - 逆文档频率 （归一化）（tf-idf）

词频特征归一化

Word Frequency Feature Normalization

machine-learning

normalization

text-mining

feature-extraction

word-frequency