有哪些方法可以对文档进行分类?

what methods are there to classify documents?

我正在尝试进行文档分类。但我真的对特征选择和 tf-idf 感到困惑。它们是相同的还是两种不同的分类方式?

希望有人能告诉我吗?我不确定我的问题对你们是否有意义。

是的,你混淆了很多东西。

  • 特征选择是选择特征(0或1)的抽象术语。去除停用词可以看作是特征选择。

  • TF 是 一个 方法从文本中提取 特征:计算单词。

  • IDF 是一种 为特征分配权重的方法。

它们都不是分类...它们在文本分类方面流行,但在信息检索方面更受欢迎,这不是分类...

然而,许多分类器都是针对数字数据进行工作的,因此常见的过程是 1. 提取特征(例如:TF) 2. Select 特征(例如去除停用词) 3. 加权特征(例如 IDF) 4. 在生成的数值向量上训练分类器。 5.预测new/unlabeled个文档的类个。

查看 this 解释可能对理解文本分类器有很大帮助。

TF-IDF 是查找回答给定查询的文档的好方法,但它不一定会分配带有 类 的文档。

可能有用的示例:

1) 你有一堆文件,主题涉及政治、经济、计算机科学和艺术。属于每个主题的文档被分为每个主题的适当目录(您有一个标记的数据集)。现在,您收到了一份您不知道其主题的新文件。应该存放在哪个目录下?分类器可以从已经标记的文档中回答这个问题。

2) 现在,您收到了有关计算机科学的查询。例如,您收到查询 "Good methods for finding textual similarity"。计算机科学目录中的哪个文档可以提供对该查询的最佳响应? TF-IDF 是解决这个问题的好方法。

因此,当您 class 化文档时,您试图决定文档是否是特定 class 的成员(例如,'about birds'或 'not about birds').

分类器根据一组特征预测 class 的值。一组好的特征将具有高度 判别力 - 它们会告诉您很多关于文档是 class 还是另一个的信息。

Tf-idf(词频逆文档频率)是一个特殊的特征,似乎对文档 classification 任务具有鉴别力。还有其他的,比如字数(tf 或词频)或者正则表达式是否与文本匹配或者你有什么。

特征 selection 是 select 好的(判别性)特征的任务。 Tfidf 可能是 select.

的一个很好的特性