机器翻译词汇量表

Vocabulary scale of machine translation

做机器翻译的时候,如果分词,比如用BPE,处理后的词汇量有多大?

您选择词汇量。

您可以将截断设为绝对值,例如总共 10 万个词汇项,或基于出现次数,例如只包括出现 10 次或更多次的词汇项。

BPE 算法从数据中的字符列表开始,迭代合并最频繁出现的符号对。如果该算法没有停止标准,您最终会得到一个词汇表,该词汇表涵盖训练数据中的所有单词 + 所有字符 + 字符和单词之间的所有合并。

使用 BPE 的原因是我们无法使用包含训练数据中所有单词的词汇表:它很容易是数百万个单词形式。因此,在使用 BPE 时,您需要提前说明要进行多少次合并。通常,合并的数量为 20-50k。它确保最频繁的单词保持不变,而不太频繁的单词被分成更小的单元。生成的词汇表大小就是合并次数 + 原始字母表大小。