Microsoft 翻译引擎定制:并行 txt 文件

Microsoft translator engine customization: parallel txt files

我正在尝试为日语执行一些 NMT 引擎自定义,但我在上传并行 txt 文件时遇到一些困难。我收集了 10k 平行句,并将它们放入两个 txt 文件中:

正如指南所建议的,我也很小心地删除了其中包含 \n\r 字符的句子,但在上传后我得到以下信息:

怎么了?

经过一些 "debugging" 我注意到门户中显示的数字是句子数(而不是行数,我的错!)。我发现它有点令人困惑(在我看来并不是很有用)。显示这些信息有什么用? 此外,我注意到,如果您上传的一个文件包含的行数少于第二个文件(这会使并行文件不再并行 - 并行文件的全部意义在于源文件中有 X 行),则没有警告, 和目标文件上的 X 行)。如果至少显示一个警告以防止错误,这将很有帮助(如果您使用并行文件并且 len(f1)!=len(f2) 这是一个很好的指示,表明某些东西已关闭)

我们显示句子计数是因为模型训练引擎在句子级别运行。 txt 并行文件集的预期格式是每行一个句子。在上传过程中,我们使用 运行 断句来识别句末标记并相应地断句。这就是句子数并不总是与行数匹配的原因。句子是我们操作的单位,而不是输入文件的行。这就是为什么我们专注于句子而不是线条。

这也是我们建议删除句子中的换行符的原因。换行符被认为是句子结束标记,因此在句子中使用换行符会造成错误的断句。

针对您的第二个问题,我们对提交的大部分数据进行运行 句子对齐处理。如果上传的平行文件中的句子数量不一致,我们通常可以得到大部分的句子对,只要句子比较接近。