使用 BERT 检测给定单词的语言

Using BERT in order to detect language of a given word

我有希伯来语单词。其中一部分原本是英文的，一部分是'Hebrew English'，意思是那些原本是英文的词，但是用希伯来文写的。例如：'insulin'在希伯来语中是“אינסולין”（同音）。

我有一个简单的二进制数据集。 X：单词（用希伯来字符书写） y：如果单词最初是英文的并且用希伯来字符书写，则标签为 1，否则为 0

我试过使用分类器，但它的输入是全文，而我的输入只是单词。

我不希望任何MASKING发生，我只想要简单的分类。

这个任务可以使用 BERT 吗？谢谢

BERT 旨在处理上下文中的单词。没有上下文，BERT-like 模型相当于简单的 word2vec 查找（有花哨的标记化，但我不知道它如何与希伯来语一起使用 - 可能不是很有效）。所以如果你真的真的想在你的分类器中使用分布式特征，你可以采用预训练的 word2vec 模型 - 它比 BERT 更简单，而且功能同样强大。

但我不确定它是否会起作用。 Word2vec 及其等效项（如没有上下文的 BERT）对单词的内部结构知之甚少 - 仅了解使用它的上下文。但是，在您的问题中，单词结构比可能的上下文更重要。例如，单词 בלוטת（腺体）或 דם（血液）或 סוכר（糖）经常出现在与胰岛素相同的上下文中，但 בלוטת 和 דם 是希伯来语，而 סוכר 是英语（好吧，最初是阿拉伯语，但我们可能不感兴趣在太古老的起源）。你不能仅从上下文中预测它。

那么为什么不从一些简单的模型（例如逻辑回归甚至朴素贝叶斯）开始而不是简单的特征（例如字符 n-grams）呢？分布特征（我的意思是 w2v）也可以添加，因为它们讲述主题，主题可能提供信息（例如，在医学和一般技术中，英语单词可能比其他领域相对更多）。

使用 BERT 检测给定单词的语言

Using BERT in order to detect language of a given word

nlp

classification

deep-learning

bert-language-model