多标签分类

MutiLabel classification

我有大约 1000 篇与科技相关的新闻文章。我需要训练一个分类器来预测每篇文章的 3(计算机科学、电子、电气)置信度分数。 每个分数代表文章属于每个领域的程度。 置信度分数将是一个介于零和一之间的值。

但是数据集没有训练标签。

我该如何从这里开始?我需要什么样的数据? 如何训练这样的模型?

因此这不是分类问题。 只要你没有任何标签,它就是无人监督的。

您可以查看 K-Means(无监督机器学习算法),它允许您将数据聚类到预定义的聚类数量(此处为 3):

https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans

但是您将没有任何措施来验证 "ground truth"

如果你真的想走得更远,你可以尝试自己给这些文章贴上标签(比如计算机科学、电子和电气)并尝试一些监督算法(使用 scikit-learn) / 神经网络(使用 tensorflow)。

我们的想法是向量化您的输入数据(您可以查看 TF-IDF),然后尝试任何监督模型。

这叫做自然语言处理。您也有可以帮助您执行此操作的库。

NLTK 和 Spacy 是一个好的开始:

https://www.nltk.org/

https://spacy.io/

不太清楚您的主要思想是什么,但文章通常有标签或类别,您可以将其用于分类标签。

人类非常擅长文章标记。