推特数据话题分类

Twitter data topical classification

所以我有一个数据集,其中包含来自不同新闻机构的推文。我已将它加载到 RapidMiner 中,对其进行标记化,并生成了一些 n-gram。现在我希望能够让 RapidMiner 根据推文的主题自动将我的数据分类到不同的类别中。

我很确定 RapidMiner 可以做到这一点,但根据我对它所做的研究,我需要一个训练数据集来向 RapidMiner 展示我希望如何分类。所以我需要一个训练数据集,尽管考虑到我想将事物分类的类别,我可能必须创建自己的。

所以我的问题是:

1) 是否有针对推特数据的训练数据集更侧重于推文的主题,而不是公开可用的情绪分析?

2) 如果没有公开可用的,我该如何创建自己的?我的想法是自己浏览推文,并将标记和 n-gram 与我想要的类别相关联。我担心的是,我无法手动对足够多的推文进行分类,无法创建足够全面的训练数据集,从而无法为自动分类器获得良好的准确率。

3) 任何关于文本数据主题分类的一般性建议都很好。这是我第一次做这样的项目,我确信我可以改进一些地方。 :)

  1. 可能有适合您的训练语料库,但您需要说明您的主题或类别,以便识别它。这是 Twitter 的事实可能是相关的,但数据源与您将实现的分类准确性的相关性可能远低于主题。因此,如果您采用臭名昭著的 20 newsgroups 数据集,这在 Twitter 上也可能有效,但前提是您所关注的类别是该数据集中的 20 个类别。如果您想对猫与狗或 Android 与 iPhone 进行分类,您需要为此找到一个数据集。

  2. 在大多数情况下,您必须手动创建初始标签,正如您所说,这是一项大量工作。一种解决方法可能是从更简单的事情开始,例如关键字搜索,以创建您知道它们处理特定类别的推文子集。然后,您在此基础上创建模型,并希望它可以泛化以识别相同的类别,即使原始关键字没有出现。

    或者,根据您的应用程序(如果您确实想要构建一个应用程序),您也可以只从一个小数据集开始,并接受您的分类很差。然后你生成分类,将它们展示给你的应用程序的用户,并收集某种形式的关于分类的显式或隐式反馈(例如,用户可以将推文标记为错误分类)。通过这种方式,您可以改进训练语料库并定期更新模型。

    最后,如果您不知道您的主题是什么并且希望 RapidMiner 识别主题,您可能想尝试聚类而不是分类。只需创建几个聚类并查看每个聚类的热门词。它们很可能非常不同,并描述了各自的集群是关于什么的。

我认为你的第三个问题对于 Whosebug 来说可能有点宽泛,最好通过教科书来回答。