spacy 和训练数据中的 Cased VS uncased BERT 模型

Cased VS uncased BERT models in spacy and train data

我想使用 spacy 的预训练 BERT 模型进行文本分类,但我对 cased/uncased 模型有点困惑。我在某处读到 cased 模型只应在字母大小写可能有助于完成任务时使用。在我的具体情况下:我正在处理德语文本。在德语中,所有名词都以大写字母开头。所以,我认为(如果我错了请纠正我)这是必须使用 cased 模型的确切情况。 (在 spacy 中也没有适用于德语的 uncased 模型)。

但在这种情况下必须如何处理数据? 我应该(在预处理火车数据时)保持原样(我的意思是不使用 .lower() 函数)还是没有任何区别?

作为非德语人士,您关于名词大写的评论确实使德语的大小写看起来比英语更相关,但这显然并不意味着大小写模型会给出在所有任务上都有更好的表现。

对于词性检测之类的东西,由于您描述的原因,大小写可能会非常有帮助,但是对于情感分析之类的东西,拥有更大的词汇量所增加的复杂性是否值得好处。 (作为人类,您可能会想象对所有小写文本进行情感分析同样容易。)

鉴于唯一可用的模型是外壳版本,我会选择它 - 我相信它仍然是您可以获得的最好的预训练德国模型之一。 Cased 模型对不同大小写的单词有单独的词汇条目(例如,在英语中 theThe 将是不同的标记)。所以是的,在预处理过程中,您不想通过调用 .lower() 来删除该信息,只需保持外壳不变即可。

“BERT cased”和“BERT uncased”之间的区别可以在不同的上下文中找到。例如,在对话系统中,用户很少以正确的形式输入文本,因此通常会找到小写的单词。也许,在这种情况下,uncased 中的 BERT 具有优势。

简单来说,BERT 不会将以大写字母开头的单词小写,例如德语中的名词。

BERT cased 在口音起重要作用的地方很有用。 例如德语中的 schön

如果我们使用 BERT uncased 将 schön 转换为 schon,它将具有不同的含义。 schön 意味着美丽,而 schon 意味着已经