如何处理机器翻译中的标点符号
How to deal with punctuations in machine translation
很好奇人们通常如何处理机器翻译中的标点符号。
例如,从语言 A 到 B 我们可能有:
A: a b c d e f g
B: x y z, u v w
请问B语言中的逗号是怎么处理的?假设我们正在使用 seq2seq 模型,我们是应该简单地删除它,还是我们也应该为它生成嵌入并像对待其他单词一样对待逗号?
如果我没有遗漏任何内容,我认为还没有论文明确讨论它。
Seq2Seq 的一个很好的应用是机器翻译。
在英语->德语的情况下,我们会看到需要额外逗号的德语句子,例如
EN: I shot him because the colonel had told me so.
DE: Ich habe auf ihn geschossen, weil es der Oberst mir befohlen hatte.
一个好的模型会自动学习 weil
之前的第一个子句(因为)需要逗号才能合乎语法。
应该不需要预先进行额外的预处理。
很好奇人们通常如何处理机器翻译中的标点符号。
例如,从语言 A 到 B 我们可能有:
A: a b c d e f g
B: x y z, u v w
请问B语言中的逗号是怎么处理的?假设我们正在使用 seq2seq 模型,我们是应该简单地删除它,还是我们也应该为它生成嵌入并像对待其他单词一样对待逗号?
如果我没有遗漏任何内容,我认为还没有论文明确讨论它。
Seq2Seq 的一个很好的应用是机器翻译。
在英语->德语的情况下,我们会看到需要额外逗号的德语句子,例如
EN: I shot him because the colonel had told me so.
DE: Ich habe auf ihn geschossen, weil es der Oberst mir befohlen hatte.
一个好的模型会自动学习 weil
之前的第一个子句(因为)需要逗号才能合乎语法。
应该不需要预先进行额外的预处理。