使用朴素贝叶斯进行文本分类

Text classification with Naive Bayes

python
nlp
nltk
text-classification
textblob

我正在学习 NLP，并注意到基于朴素贝叶斯的 TextBlob 分类（textblob 建立在 NLTK 之上）https://textblob.readthedocs.io/en/dev/classifiers.html 在训练数据是句子列表时工作正常，而在训练数据时根本不起作用是单独的词（其中每个词和分配的分类）。

为什么？

因为你的训练数据中没有单个单词。

通常训练数据和evaluation/testing数据应该选择相同的分布。偏差或偏斜通常是有问题的。在极少数情况下，您可以训练模型做一件事，然后用它做另一件事。

在您的例子中，模型可能会将权重分散到句子中的单词上。所以当你选择一个单词时，你只会得到代表权重的一小部分。

要让它发挥作用，您应该在训练数据中添加单个单词示例。

使用朴素贝叶斯进行文本分类

Text classification with Naive Bayes

python

nlp

nltk

text-classification

textblob