如何让文本分类给出一个None类

How to make text classification gives a None category

我正在对方言进行文本分类。在我为 3 种方言训练它之后,我用我拥有的测试数据对其进行了测试。但是,现在假设我要从推特中提取一条推文,并要求分类器输出相应的方言,但如果推文不是用这 3 种方言中的任何一种写的怎么办?我假设他无论如何都会给出一个类别,但这将是误报。所以,我要他给一个None类。怎么做?我还应该给训练数据加上 None 标签吗?

如果你想用相同的分类器预测一个新类别(在本例中None),你必须提供与该类别对应的训练数据。

另一个想法(这里讨论得更好:https://stats.stackexchange.com/questions/174856/semi-supervised-classification-with-unseen-classes)是训练一个 multi-class 分类器,它为其中一种方言分配一个句子;然后训练各种 one-class 个分类器,每个方言一个,可以确认或否定 multi-class 个分类器预测。

一个例子:
方言 A、B、C.

Multi-class 分类器将句子分配给方言 A。
One-class 方言 A 分类器将句子分类为方言 A。
句子属于方言A.

Multi-class 分类器将句子分配给方言 A。
One-class 方言 A 的分类器将句子分类为非方言 A。
句子属于未知方言(None).