文本数据中类别的分类

Classification of Categories in Text Data

这可能是一个抽象的问题,但我总是遇到这样的问题,并且不断地出现在我面前。

我抓取数据(例如:关于塔塔钢铁的新闻文章)提取内容,手动阅读每个 link 的内容并将它们分类为财务、运营、可持续发展等。

然后我制作了 tf-idf 数据框作为分类器模型的特征。

我想训练模型对这些文章进行分类。我只剩下使用 tf-idf 功能的 SVM 或 Logistic。

有没有更好的方法来分类文本数据?有没有更好的方法而不是制作 tf-idf,因为我们在将它们分解成单词并用作特征时可能会丢失信息(句子的上下文含义)。

有什么算法可以帮助我改进文本数据的分类?

有几个商业 API 以及用于文本分类任务的框架改进了 SVM/logistic 和 tf-idf。它们包括句子中的 semantic/context/word 顺序以进行分类。深度神经网络在这个任务中非常有用,如果你想从头开始构建神经网络,你可以研究 LSTM 和 RNN 测试分类。对于现有的和更容易上手的,你可以看看Spacy和FastText。两者都有分类模型的标签和训练数据示例

如果你足够好地清理你的特征,没有理由简单的朴素贝叶斯不能很好地执行。专注于删除任何你已经知道是低 information-gain 的词,然后在适合你的模型后再次 trim 特征。

标记的 LDA,或 L-LDA 是另一种选择。