如何训练分类器从语法语言中检测白话？

Question

我正在使用文本分类对阿拉伯方言进行分类，到目前为止我有 4 种方言。但是，现在我希望分类器检测那些称为 MSA（现代标准阿拉伯语）的方言的正式（标准或语法）语言。

我应该使用语法分析吗？建立语言模型？或者我通过收集 MSA 推文然后训练它们来做与方言相同的事情？

Answer 1

您可以为语言的每种方言训练一个语言模型。然后，给定一个句子，找到每个语言模型返回的（log）概率，并将其分配给 returns 高分的语言模型。

p* = argmax p_i p_i(sentence)

其中p_i是方言i的语言模型。

语言模型是单词序列的概率分布。给定一个句子，比如说长度 m，它为整个序列分配一个概率 P(w1, ... ,wm)。所以句子会属于P_i(w)高的方言，其中P_i是方言i.

的语言模型

How to train a classifier to detect vernacular from grammatical language?