文本分析：术语文档矩阵之后是什么？

Text analysis : What after term-document matrix?

我正在尝试从文本数据构建预测模型。我从文本数据（unigram 和 bigram）构建了文档术语矩阵，并在其上构建了不同类型的模型（如 svm、随机森林、最近邻等）。所有的技术都给出了不错的结果，但我想改进结果。我尝试通过更改参数来调整模型，但这似乎并没有太大地提高性能。我接下来可能采取的步骤是什么？

这不是真正的编程问题，但无论如何：

如果您的目标是预测，而不是文本分类，通常的方法是退避模型（Katz Backoff) and interpolation/smoothing, e.g. Kneser-Ney smoothing。

据我所知，随机森林等更复杂的模型并非绝对必要，如果您需要快速做出预测，可能会出现问题。如果您使用的是插值模型，您仍然可以使用保留的数据部分调整模型参数 (lambda)。

最后，我同意 NEO 在阅读部分的观点，并推荐 Jurafsky 和 Martin 的 "Speech and Language Processing"。

文本分析：术语文档矩阵之后是什么？

Text analysis : What after term-document matrix?

r

machine-learning

nlp

svm

text-mining