如何让文本分类给出一个None类

How to make text classification gives a None category

我正在对方言进行文本分类。在我为 3 种方言训练它之后，我用我拥有的测试数据对其进行了测试。但是，现在假设我要从推特中提取一条推文，并要求分类器输出相应的方言，但如果推文不是用这 3 种方言中的任何一种写的怎么办？我假设他无论如何都会给出一个类别，但这将是误报。所以，我要他给一个None类。怎么做？我还应该给训练数据加上 None 标签吗？

如果你想用相同的分类器预测一个新类别（在本例中None），你必须提供与该类别对应的训练数据。

另一个想法（这里讨论得更好：https://stats.stackexchange.com/questions/174856/semi-supervised-classification-with-unseen-classes）是训练一个 multi-class 分类器，它为其中一种方言分配一个句子；然后训练各种 one-class 个分类器，每个方言一个，可以确认或否定 multi-class 个分类器预测。

一个例子：
方言 A、B、C.

Multi-class 分类器将句子分配给方言 A。
One-class 方言 A 分类器将句子分类为方言 A。
句子属于方言A.

Multi-class 分类器将句子分配给方言 A。
One-class 方言 A 的分类器将句子分类为非方言 A。
句子属于未知方言(None).

如何让文本分类给出一个None类

How to make text classification gives a None category

python

machine-learning

text-classification

countvectorizer