如何处理机器翻译中的标点符号

How to deal with punctuations in machine translation

很好奇人们通常如何处理机器翻译中的标点符号。

例如,从语言 A 到 B 我们可能有:

A: a b c d e f g
B: x y z, u v w

请问B语言中的逗号是怎么处理的?假设我们正在使用 seq2seq 模型,我们是应该简单地删除它,还是我们也应该为它生成嵌入并像对待其他单词一样对待逗号?

如果我没有遗漏任何内容,我认为还没有论文明确讨论它。

Seq2Seq 的一个很好的应用是机器翻译。

在英语->德语的情况下,我们会看到需要额外逗号的德语句子,例如

EN: I shot him because the colonel had told me so.

DE: Ich habe auf ihn geschossen, weil es der Oberst mir befohlen hatte.

一个好的模型会自动学习 weil 之前的第一个子句(因为)需要逗号才能合乎语法。

应该不需要预先进行额外的预处理。