从子词标记编码中获取词级编码

getting word-level encodings from sub-word tokens encodings

我正在研究使用预训练的 BERT ('bert-base-uncased') 模型从一堆句子中提取上下文词级编码。

Wordpiece tokenisation 将我输入的一些词分解为子词单元。可能是一个微不足道的问题,但我想知道将子词标记的输出编码组合成词级编码的最明智方法是什么。

平均子字编码是一种合理的方法吗?如果没有,有没有更好的选择?

直觉上,您的问题似乎与 "how to get a good sentence representation" 相似,不同之处在于现在您还可以使用句子的分类标记在大多数基于转换器的模型中获得句子表示。但是,此类令牌不可用于令牌级表示。

对于您的情况,我认为有几个选项,但据我所知,人们最常使用平均值或最大值。换句话说:取你的子词单位的平均值,或者取最大值。在我看来,平均是最直观的起点。

请注意,平均值只是一个序列的平均值。这意味着它不是非常准确(一个高值和一个低值将与两个中间值具有相同的平均值),但它可能是最直接的。