训练具有代币特征的模型
Train Model with Token Features
我想为希伯来语训练一个类似 BERT 的模型,我知道的是:
- 引理
- 性别
- 人数
- 语音
我想训练一个模型,其中每个标记的这些特征都被串联起来
Embedding(Token) = E1(Lemma):E2(Gender):E3(Number):E4(Voice)
有没有办法用当前的 huggingface 变形金刚库做这样的事情?
默认情况下,Huggingface 变形金刚中的模型不支持分解输入。作为一种解决方法,您可以自己嵌入输入并绕过 BERT 中的嵌入层。您可以在调用模型时提供 input_embeds
,而不是提供 input_ids
。它将使用提供的嵌入和位置嵌入。请注意,提供的嵌入需要与模型的其余部分具有相同的维度。
您需要为每种输入类型(引理、性别、数字、声音)设置一个嵌入层,这也意味着要有 factor-specific 词汇表,这些词汇表会将索引分配给用于嵌入查找的输入。与具有多个可能值的语法类别相比,为词条嵌入更大的嵌入是有意义的。
然后您只需连接嵌入,可选择将它们投影并将它们作为 input_embeds
提供给模型。
我想为希伯来语训练一个类似 BERT 的模型,我知道的是:
- 引理
- 性别
- 人数
- 语音
我想训练一个模型,其中每个标记的这些特征都被串联起来 Embedding(Token) = E1(Lemma):E2(Gender):E3(Number):E4(Voice)
有没有办法用当前的 huggingface 变形金刚库做这样的事情?
默认情况下,Huggingface 变形金刚中的模型不支持分解输入。作为一种解决方法,您可以自己嵌入输入并绕过 BERT 中的嵌入层。您可以在调用模型时提供 input_embeds
,而不是提供 input_ids
。它将使用提供的嵌入和位置嵌入。请注意,提供的嵌入需要与模型的其余部分具有相同的维度。
您需要为每种输入类型(引理、性别、数字、声音)设置一个嵌入层,这也意味着要有 factor-specific 词汇表,这些词汇表会将索引分配给用于嵌入查找的输入。与具有多个可能值的语法类别相比,为词条嵌入更大的嵌入是有意义的。
然后您只需连接嵌入,可选择将它们投影并将它们作为 input_embeds
提供给模型。