如果我整个训练集的文档是classA,我怎么用TF-IDF找到classA的其他文档呢?

If my entire training set of documents is class A, how can I use TF-IDF to find other documents of class A?

我收集了 X 份文档,所有这些都是 class A(我唯一感兴趣或了解的唯一 class)。我还有一个更大的 Y 文档集合,我对此一无所知。 X 和 Y 中的文档来自相同的来源,具有相似的格式和相似的主题。我想使用 X 中文档的 TF-IDF 特征向量来查找 Y 中最有可能属于 class A.

的文档

过去,我使用 TF-IDF 特征向量构建朴素贝叶斯 class 化器,但在这些情况下,我的训练集 X 包含许多 classes 的文档,我的 objective 是 class 将 Y 中的每个文档确认为 X 中看到的 classes 之一。

这似乎是另一种情况。在这里,我的整个训练集都具有相同的 class(我没有知道不属于 class A 的文档),我只对确定 Y 中的文档是否属于class.

A classifier 似乎走错了路,但我不确定下一步最好的做法是什么。是否有不同的算法可以使用该 TF-IDF 矩阵来确定文档相同的可能性 class?

仅供参考,我在 Python 2.7 中使用 scikit-learn,这显然使计算 X(和 Y)的 TF-IDF 矩阵变得简单。

我认为您拥有的是一个无监督学习应用程序。聚类。使用组合的 X & Y 数据集,生成集群。然后叠加X边界;包含所有 X 个样本的边界。在 X 边界中来自 Y 的所有项目都可以被认为是 X。并且来自 Y 的给定样本的 X-ness 是与 X 聚类质心的距离。像那样的东西。

最简单的事情就是已经提出的 - 聚类。更具体地说,您从集合 X 中提取单个特征向量,然后将 K 均值聚类应用于整个 X 和 Y 集合。

ps:注意不要将 k-means 与 kNN(k-最近邻)混淆。您只能应用无监督学习方法。