使用朴素贝叶斯进行文本分类
Text classification with Naive Bayes
我正在学习 NLP,并注意到基于朴素贝叶斯的 TextBlob 分类(textblob 建立在 NLTK 之上)https://textblob.readthedocs.io/en/dev/classifiers.html 在训练数据是句子列表时工作正常,而在训练数据时根本不起作用是单独的词(其中每个词和分配的分类)。
为什么?
因为你的训练数据中没有单个单词。
通常训练数据和evaluation/testing数据应该选择相同的分布。偏差或偏斜通常是有问题的。在极少数情况下,您可以训练模型做一件事,然后用它做另一件事。
在您的例子中,模型可能会将权重分散到句子中的单词上。所以当你选择一个单词时,你只会得到代表权重的一小部分。
要让它发挥作用,您应该在训练数据中添加单个单词示例。
我正在学习 NLP,并注意到基于朴素贝叶斯的 TextBlob 分类(textblob 建立在 NLTK 之上)https://textblob.readthedocs.io/en/dev/classifiers.html 在训练数据是句子列表时工作正常,而在训练数据时根本不起作用是单独的词(其中每个词和分配的分类)。
为什么?
因为你的训练数据中没有单个单词。
通常训练数据和evaluation/testing数据应该选择相同的分布。偏差或偏斜通常是有问题的。在极少数情况下,您可以训练模型做一件事,然后用它做另一件事。
在您的例子中,模型可能会将权重分散到句子中的单词上。所以当你选择一个单词时,你只会得到代表权重的一小部分。
要让它发挥作用,您应该在训练数据中添加单个单词示例。