多标签分类
MutiLabel classification
我有大约 1000 篇与科技相关的新闻文章。我需要训练一个分类器来预测每篇文章的 3(计算机科学、电子、电气)置信度分数。
每个分数代表文章属于每个领域的程度。
置信度分数将是一个介于零和一之间的值。
但是数据集没有训练标签。
我该如何从这里开始?我需要什么样的数据?
如何训练这样的模型?
因此这不是分类问题。
只要你没有任何标签,它就是无人监督的。
您可以查看 K-Means(无监督机器学习算法),它允许您将数据聚类到预定义的聚类数量(此处为 3):
https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans
但是您将没有任何措施来验证 "ground truth"
如果你真的想走得更远,你可以尝试自己给这些文章贴上标签(比如计算机科学、电子和电气)并尝试一些监督算法(使用 scikit-learn) / 神经网络(使用 tensorflow)。
我们的想法是向量化您的输入数据(您可以查看 TF-IDF),然后尝试任何监督模型。
这叫做自然语言处理。您也有可以帮助您执行此操作的库。
NLTK 和 Spacy 是一个好的开始:
不太清楚您的主要思想是什么,但文章通常有标签或类别,您可以将其用于分类标签。
人类非常擅长文章标记。
我有大约 1000 篇与科技相关的新闻文章。我需要训练一个分类器来预测每篇文章的 3(计算机科学、电子、电气)置信度分数。 每个分数代表文章属于每个领域的程度。 置信度分数将是一个介于零和一之间的值。
但是数据集没有训练标签。
我该如何从这里开始?我需要什么样的数据? 如何训练这样的模型?
因此这不是分类问题。 只要你没有任何标签,它就是无人监督的。
您可以查看 K-Means(无监督机器学习算法),它允许您将数据聚类到预定义的聚类数量(此处为 3):
https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans
但是您将没有任何措施来验证 "ground truth"
如果你真的想走得更远,你可以尝试自己给这些文章贴上标签(比如计算机科学、电子和电气)并尝试一些监督算法(使用 scikit-learn) / 神经网络(使用 tensorflow)。
我们的想法是向量化您的输入数据(您可以查看 TF-IDF),然后尝试任何监督模型。
这叫做自然语言处理。您也有可以帮助您执行此操作的库。
NLTK 和 Spacy 是一个好的开始:
不太清楚您的主要思想是什么,但文章通常有标签或类别,您可以将其用于分类标签。
人类非常擅长文章标记。