未标记数据的文本分类

Text classification for unlabeled data

我想根据给定的参数将数据分为两个类。我的数据是来自两个不同来源的出版物,我想将其分类为“匹配”或“non-match”;将 dataset1 与 dataset2 进行比较时。数据集是未标记的文本数据,包含五个属性(id、标题、作者、地点、年份),所以如果我应用无监督算法,它不会产生我的目标 类。另一方面,监督算法需要标记不可用且耗时的数据。

最好、最简单和 AFAIK 最佳的方法如下:

  1. 使用 clustering 算法,例如 K-Means,将您的数据点聚类为 2 个聚类。
  2. 现在,manually examine a few samples 集群之一并相应地标记它。

假设您从第一个集群中随机选取了 10 个数据点,并且它们落在 匹配项 class 中。现在您需要做的就是将此集群中的所有数据点标记为 match 并将另一个集群中的所有数据点标记为 non-match.

这将为您提供所需的 class化验。