使用监督式机器学习将推文分类 Python

Classify tweets into categories with supervised machine learning Python

我有一大组推文,其中一小部分已全部手动分配到主题类别。类别用数字表示,从 1 到 4,每个数字下面有大约 20 条属于该类别的推文。例如:

Category     Tweets

   1         ...twenty tweets belonging to category one...

   2         ...twenty tweets belonging to category two...

   3         ...twenty tweets belonging to category three...

   4         ...twenty tweets belonging to category four...

我的目标是实施某种机器学习技术,具体来说 Python,它将能够将已经分类的推文及其类别作为算法的训练数据,然后,使用什么它了解到,查看其余数据集和 return 每个类别大约 100 条它认为最属于该类别的推文。

我查看过监督 LDA、标记 LDA 和 K 最近邻等算法,但我无法理解这些算法如何应用于我的任务。如果有人可以 link 给我一些资源,我将不胜感激,因为我一直在努力解决这个问题!

如果我对你的问题的理解正确,你有一小部分标记数据,你希望在这些数据上训练算法,然后想在大量数据上使用经过训练的算法来为每个数据获得最好的 100 条推文类别。

如果是这种情况,逻辑回归可能会很有用,因为它在文本分类方面非常成功。它还会给你每条推文在 4 类

中的概率

例如推文 1 结果将是这样 [0.4,0.3,0.2,0.1]。这表示推文 1 属于类别 1。但是,您可以将这些概率存储在单独的列表中,然后将它们排序以获得前 100。

如果您想使其可扩展,我建议您使用 pyspark 库,因为您已经熟悉 python。这是一个方便的教程

https://spark.apache.org/docs/latest/ml-classification-regression.html#logistic-regression