文本分析:术语文档矩阵之后是什么?

Text analysis : What after term-document matrix?

我正在尝试从文本数据构建预测模型。我从文本数据(unigram 和 bigram)构建了文档术语矩阵,并在其上构建了不同类型的模型(如 svm、随机森林、最近邻等)。所有的技术都给出了不错的结果,但我想改进结果。我尝试通过更改参数来调整模型,但这似乎并没有太大地提高性能。我接下来可能采取的步骤是什么?

这不是真正的编程问题,但无论如何:

如果您的目标是预测,而不是文本分类,通常的方法是退避模型(Katz Backoff) and interpolation/smoothing, e.g. Kneser-Ney smoothing

据我所知,随机森林等更复杂的模型并非绝对必要,如果您需要快速做出预测,可能会出现问题。如果您使用的是插值模型,您仍然可以使用保留的数据部分调整模型参数 (lambda)。

最后,我同意 NEO 在阅读部分的观点,并推荐 Jurafsky 和 ​​Martin 的 "Speech and Language Processing"。