词频和 IDF - 说明

Term Frequency and IDF - Clarification

在link、https://en.wikipedia.org/wiki/Tf%E2%80%93idf的基础上,使用IDF来否定文档中常用词的权重(如"the"、"of"等)

如果我在提取特征之前应用停用词删除,是否应该应用 IDF?我觉得只有词频就足够了,因为重复的不重要的词已经被过滤了。

请告知

即使您使用停用词删除,IDF 在大多数情况下仍然有用。

我个人尽量避免删除停用词:它取决于语言,列表的内容是任意的,您可能会删除有用的词。 stopword removal 就像用 IDF 说:从这个分界点开始,上面的都是好的,下面的都是无用的(没有 "in between" zone!),这显然不能反映语言的真实本质。

但回答您的问题的最佳方法是尝试两种方法:如果您在文本分类或信息检索过程的上下文中使用 TF-IDF,为什么不尝试使用和不使用 IDF 进行测试,看看哪一种产生最好的精度?