如何训练分类器从语法语言中检测白话?

How to train a classifier to detect vernacular from grammatical language?

我正在使用文本分类对阿拉伯方言进行分类,到目前为止我有 4 种方言。但是,现在我希望分类器检测那些称为 MSA(现代标准阿拉伯语)的方言的正式(标准或语法)语言。

我应该使用语法分析吗?建立语言模型?或者我通过收集 MSA 推文然后训练它们来做与方言相同的事情?

您可以为语言的每种方言训练一个语言模型。然后,给定一个句子,找到每个语言模型返回的(log)概率,并将其分配给 returns 高分的语言模型。

p* = argmax p_i p_i(sentence)

其中p_i是方言i的语言模型。

语言模型是单词序列的概率分布。给定一个句子,比如说长度 m,它为整个序列分配一个概率 P(w1, ... ,wm)。所以句子会属于P_i(w)高的方言,其中P_i是方言i.

的语言模型