如何训练分类器从语法语言中检测白话?
How to train a classifier to detect vernacular from grammatical language?
我正在使用文本分类对阿拉伯方言进行分类,到目前为止我有 4 种方言。但是,现在我希望分类器检测那些称为 MSA(现代标准阿拉伯语)的方言的正式(标准或语法)语言。
我应该使用语法分析吗?建立语言模型?或者我通过收集 MSA 推文然后训练它们来做与方言相同的事情?
您可以为语言的每种方言训练一个语言模型。然后,给定一个句子,找到每个语言模型返回的(log)概率,并将其分配给 returns 高分的语言模型。
p* = argmax p_i p_i(sentence)
其中p_i
是方言i的语言模型。
语言模型是单词序列的概率分布。给定一个句子,比如说长度 m
,它为整个序列分配一个概率 P(w1, ... ,wm)
。所以句子会属于P_i(w)
高的方言,其中P_i
是方言i
.
的语言模型
我正在使用文本分类对阿拉伯方言进行分类,到目前为止我有 4 种方言。但是,现在我希望分类器检测那些称为 MSA(现代标准阿拉伯语)的方言的正式(标准或语法)语言。
我应该使用语法分析吗?建立语言模型?或者我通过收集 MSA 推文然后训练它们来做与方言相同的事情?
您可以为语言的每种方言训练一个语言模型。然后,给定一个句子,找到每个语言模型返回的(log)概率,并将其分配给 returns 高分的语言模型。
p* = argmax p_i p_i(sentence)
其中p_i
是方言i的语言模型。
语言模型是单词序列的概率分布。给定一个句子,比如说长度 m
,它为整个序列分配一个概率 P(w1, ... ,wm)
。所以句子会属于P_i(w)
高的方言,其中P_i
是方言i
.