使用监督式机器学习将推文分类 Python

Question

我有一大组推文，其中一小部分已全部手动分配到主题类别。类别用数字表示，从 1 到 4，每个数字下面有大约 20 条属于该类别的推文。例如：

Category     Tweets

   1         ...twenty tweets belonging to category one...

   2         ...twenty tweets belonging to category two...

   3         ...twenty tweets belonging to category three...

   4         ...twenty tweets belonging to category four...

我的目标是实施某种机器学习技术，具体来说 Python，它将能够将已经分类的推文及其类别作为算法的训练数据，然后，使用什么它了解到，查看其余数据集和 return 每个类别大约 100 条它认为最属于该类别的推文。

我查看过监督 LDA、标记 LDA 和 K 最近邻等算法，但我无法理解这些算法如何应用于我的任务。如果有人可以 link 给我一些资源，我将不胜感激，因为我一直在努力解决这个问题！

Answer 1

如果我对你的问题的理解正确，你有一小部分标记数据，你希望在这些数据上训练算法，然后想在大量数据上使用经过训练的算法来为每个数据获得最好的 100 条推文类别。

如果是这种情况，逻辑回归可能会很有用，因为它在文本分类方面非常成功。它还会给你每条推文在 4 类

中的概率

例如推文 1 结果将是这样 [0.4,0.3,0.2,0.1]。这表示推文 1 属于类别 1。但是，您可以将这些概率存储在单独的列表中，然后将它们排序以获得前 100。

如果您想使其可扩展，我建议您使用 pyspark 库，因为您已经熟悉 python。这是一个方便的教程

https://spark.apache.org/docs/latest/ml-classification-regression.html#logistic-regression

使用监督式机器学习将推文分类 Python

Classify tweets into categories with supervised machine learning Python

python

twitter

machine-learning

supervised-learning