推特数据话题分类

Twitter data topical classification

所以我有一个数据集，其中包含来自不同新闻机构的推文。我已将它加载到 RapidMiner 中，对其进行标记化，并生成了一些 n-gram。现在我希望能够让 RapidMiner 根据推文的主题自动将我的数据分类到不同的类别中。

我很确定 RapidMiner 可以做到这一点，但根据我对它所做的研究，我需要一个训练数据集来向 RapidMiner 展示我希望如何分类。所以我需要一个训练数据集，尽管考虑到我想将事物分类的类别，我可能必须创建自己的。

所以我的问题是：

1) 是否有针对推特数据的训练数据集更侧重于推文的主题，而不是公开可用的情绪分析？

2) 如果没有公开可用的，我该如何创建自己的？我的想法是自己浏览推文，并将标记和 n-gram 与我想要的类别相关联。我担心的是，我无法手动对足够多的推文进行分类，无法创建足够全面的训练数据集，从而无法为自动分类器获得良好的准确率。

3) 任何关于文本数据主题分类的一般性建议都很好。这是我第一次做这样的项目，我确信我可以改进一些地方。 :)

可能有适合您的训练语料库，但您需要说明您的主题或类别，以便识别它。这是 Twitter 的事实可能是相关的，但数据源与您将实现的分类准确性的相关性可能远低于主题。因此，如果您采用臭名昭著的 20 newsgroups 数据集，这在 Twitter 上也可能有效，但前提是您所关注的类别是该数据集中的 20 个类别。如果您想对猫与狗或 Android 与 iPhone 进行分类，您需要为此找到一个数据集。
在大多数情况下，您必须手动创建初始标签，正如您所说，这是一项大量工作。一种解决方法可能是从更简单的事情开始，例如关键字搜索，以创建您知道它们处理特定类别的推文子集。然后，您在此基础上创建模型，并希望它可以泛化以识别相同的类别，即使原始关键字没有出现。

或者，根据您的应用程序（如果您确实想要构建一个应用程序），您也可以只从一个小数据集开始，并接受您的分类很差。然后你生成分类，将它们展示给你的应用程序的用户，并收集某种形式的关于分类的显式或隐式反馈（例如，用户可以将推文标记为错误分类）。通过这种方式，您可以改进训练语料库并定期更新模型。

最后，如果您不知道您的主题是什么并且希望 RapidMiner 识别主题，您可能想尝试聚类而不是分类。只需创建几个聚类并查看每个聚类的热门词。它们很可能非常不同，并描述了各自的集群是关于什么的。

我认为你的第三个问题对于 Whosebug 来说可能有点宽泛，最好通过教科书来回答。

推特数据话题分类

Twitter data topical classification

twitter

bigdata

training-data

rapidminer