使用 BERT 检测给定单词的语言

Using BERT in order to detect language of a given word

我有希伯来语单词。其中一部分原本是英文的,一部分是'Hebrew English',意思是那些原本是英文的词,但是用希伯来文写的。 例如:'insulin'在希伯来语中是“אינסולין”(同音)。

我有一个简单的二进制数据集。 X:单词(用希伯来字符书写) y:如果单词最初是英文的并且用希伯来字符书写,则标签为 1,否则为 0

我试过使用分类器,但它的输入是全文,而我的输入只是单词。

我不希望任何MASKING发生,我只想要简单的分类。

这个任务可以使用 BERT 吗?谢谢

BERT 旨在处理上下文中的单词。没有上下文,BERT-like 模型相当于简单的 word2vec 查找(有花哨的标记化,但我不知道它如何与希伯来语一起使用 - 可能不是很有效)。所以如果你真的真的想在你的分类器中使用分布式特征,你可以采用预训练的 word2vec 模型 - 它比 BERT 更简单,而且功能同样强大。

但我不确定它是否会起作用。 Word2vec 及其等效项(如没有上下文的 BERT)对单词的内部结构知之甚少 - 仅了解使用它的上下文。但是,在您的问题中,单词结构比可能的上下文更重要。例如,单词 בלוטת(腺体)或 דם(血液)或 סוכר(糖)经常出现在与胰岛素相同的上下文中,但 בלוטת 和 דם 是希伯来语,而 סוכר 是英语(好吧,最初是阿拉伯语,但我们可能不感兴趣在太古老的起源)。你不能仅从上下文中预测它。

那么为什么不从一些简单的模型(例如逻辑回归甚至朴素贝叶斯)开始而不是简单的特征(例如字符 n-grams)呢?分布特征(我的意思是 w2v)也可以添加,因为它们讲述主题,主题可能提供信息(例如,在医学和一般技术中,英语单词可能比其他领域相对更多)。