文本数据中类别的分类

Classification of Categories in Text Data

这可能是一个抽象的问题，但我总是遇到这样的问题，并且不断地出现在我面前。

我抓取数据（例如：关于塔塔钢铁的新闻文章）提取内容，手动阅读每个 link 的内容并将它们分类为财务、运营、可持续发展等。

然后我制作了 tf-idf 数据框作为分类器模型的特征。

我想训练模型对这些文章进行分类。我只剩下使用 tf-idf 功能的 SVM 或 Logistic。

有没有更好的方法来分类文本数据？有没有更好的方法而不是制作 tf-idf，因为我们在将它们分解成单词并用作特征时可能会丢失信息（句子的上下文含义）。

有什么算法可以帮助我改进文本数据的分类？

有几个商业 API 以及用于文本分类任务的框架改进了 SVM/logistic 和 tf-idf。它们包括句子中的 semantic/context/word 顺序以进行分类。深度神经网络在这个任务中非常有用，如果你想从头开始构建神经网络，你可以研究 LSTM 和 RNN 测试分类。对于现有的和更容易上手的，你可以看看Spacy和FastText。两者都有分类模型的标签和训练数据示例

如果你足够好地清理你的特征，没有理由简单的朴素贝叶斯不能很好地执行。专注于删除任何你已经知道是低 information-gain 的词，然后在适合你的模型后再次 trim 特征。

标记的 LDA，或 L-LDA 是另一种选择。

文本数据中类别的分类

Classification of Categories in Text Data

nlp

machine-learning

text-classification