训练具有代币特征的模型

Train Model with Token Features

huggingface-transformers

我想为希伯来语训练一个类似 BERT 的模型，我知道的是：

引理
性别
人数
语音

我想训练一个模型，其中每个标记的这些特征都被串联起来 Embedding(Token) = E1(Lemma):E2(Gender):E3(Number):E4(Voice)

有没有办法用当前的 huggingface 变形金刚库做这样的事情？

默认情况下，Huggingface 变形金刚中的模型不支持分解输入。作为一种解决方法，您可以自己嵌入输入并绕过 BERT 中的嵌入层。您可以在调用模型时提供 input_embeds，而不是提供 input_ids。它将使用提供的嵌入和位置嵌入。请注意，提供的嵌入需要与模型的其余部分具有相同的维度。

您需要为每种输入类型（引理、性别、数字、声音）设置一个嵌入层，这也意味着要有 factor-specific 词汇表，这些词汇表会将索引分配给用于嵌入查找的输入。与具有多个可能值的语法类别相比，为词条嵌入更大的嵌入是有意义的。

然后您只需连接嵌入，可选择将它们投影并将它们作为 input_embeds 提供给模型。

训练具有代币特征的模型

Train Model with Token Features

huggingface-transformers