训练具有代币特征的模型

Train Model with Token Features

我想为希伯来语训练一个类似 BERT 的模型,我知道的是:

  1. 引理
  2. 性别
  3. 人数
  4. 语音

我想训练一个模型,其中每个标记的这些特征都被串联起来 Embedding(Token) = E1(Lemma):E2(Gender):E3(Number):E4(Voice)

有没有办法用当前的 huggingface 变形金刚库做这样的事情?

默认情况下,Huggingface 变形金刚中的模型不支持分解输入。作为一种解决方法,您可以自己嵌入输入并绕过 BERT 中的嵌入层。您可以在调用模型时提供 input_embeds,而不是提供 input_ids。它将使用提供的嵌入和位置嵌入。请注意,提供的嵌入需要与模型的其余部分具有相同的维度。

您需要为每种输入类型(引理、性别、数字、声音)设置一个嵌入层,这也意味着要有 factor-specific 词汇表,这些词汇表会将索引分配给用于嵌入查找的输入。与具有多个可能值的语法类别相比,为词条嵌入更大的嵌入是有意义的。

然后您只需连接嵌入,可选择将它们投影并将它们作为 input_embeds 提供给模型。