未标记数据的文本分类
Text classification for unlabeled data
我想根据给定的参数将数据分为两个类。我的数据是来自两个不同来源的出版物,我想将其分类为“匹配”或“non-match”;将 dataset1 与 dataset2 进行比较时。数据集是未标记的文本数据,包含五个属性(id、标题、作者、地点、年份),所以如果我应用无监督算法,它不会产生我的目标 类。另一方面,监督算法需要标记不可用且耗时的数据。
- 在 python 中最好和最简单的方法是什么?
最好、最简单和 AFAIK 最佳的方法如下:
- 使用
clustering
算法,例如 K-Means
,将您的数据点聚类为 2 个聚类。
- 现在,
manually examine a few samples
集群之一并相应地标记它。
假设您从第一个集群中随机选取了 10 个数据点,并且它们落在 匹配项 class 中。现在您需要做的就是将此集群中的所有数据点标记为 match
并将另一个集群中的所有数据点标记为 non-match
.
这将为您提供所需的 class化验。
我想根据给定的参数将数据分为两个类。我的数据是来自两个不同来源的出版物,我想将其分类为“匹配”或“non-match”;将 dataset1 与 dataset2 进行比较时。数据集是未标记的文本数据,包含五个属性(id、标题、作者、地点、年份),所以如果我应用无监督算法,它不会产生我的目标 类。另一方面,监督算法需要标记不可用且耗时的数据。
- 在 python 中最好和最简单的方法是什么?
最好、最简单和 AFAIK 最佳的方法如下:
- 使用
clustering
算法,例如K-Means
,将您的数据点聚类为 2 个聚类。 - 现在,
manually examine a few samples
集群之一并相应地标记它。
假设您从第一个集群中随机选取了 10 个数据点,并且它们落在 匹配项 class 中。现在您需要做的就是将此集群中的所有数据点标记为 match
并将另一个集群中的所有数据点标记为 non-match
.
这将为您提供所需的 class化验。