如何处理机器翻译中的标点符号

Question

很好奇人们通常如何处理机器翻译中的标点符号。

例如，从语言 A 到 B 我们可能有：

A: a b c d e f g
B: x y z, u v w

请问B语言中的逗号是怎么处理的？假设我们正在使用 seq2seq 模型，我们是应该简单地删除它，还是我们也应该为它生成嵌入并像对待其他单词一样对待逗号？

如果我没有遗漏任何内容，我认为还没有论文明确讨论它。

Answer 1

Seq2Seq 的一个很好的应用是机器翻译。

在英语->德语的情况下，我们会看到需要额外逗号的德语句子，例如

EN: I shot him because the colonel had told me so.

DE: Ich habe auf ihn geschossen, weil es der Oberst mir befohlen hatte.

一个好的模型会自动学习 weil 之前的第一个子句（因为）需要逗号才能合乎语法。

应该不需要预先进行额外的预处理。

How to deal with punctuations in machine translation