多标签分类

MutiLabel classification

我有大约 1000 篇与科技相关的新闻文章。我需要训练一个分类器来预测每篇文章的 3（计算机科学、电子、电气）置信度分数。每个分数代表文章属于每个领域的程度。置信度分数将是一个介于零和一之间的值。

但是数据集没有训练标签。

我该如何从这里开始？我需要什么样的数据？如何训练这样的模型？

因此这不是分类问题。只要你没有任何标签，它就是无人监督的。

您可以查看 K-Means（无监督机器学习算法），它允许您将数据聚类到预定义的聚类数量（此处为 3）：

但是您将没有任何措施来验证 "ground truth"

如果你真的想走得更远，你可以尝试自己给这些文章贴上标签（比如计算机科学、电子和电气）并尝试一些监督算法（使用 scikit-learn) / 神经网络（使用 tensorflow）。

我们的想法是向量化您的输入数据（您可以查看 TF-IDF），然后尝试任何监督模型。

这叫做自然语言处理。您也有可以帮助您执行此操作的库。

NLTK 和 Spacy 是一个好的开始:

不太清楚您的主要思想是什么，但文章通常有标签或类别，您可以将其用于分类标签。

人类非常擅长文章标记。