实时机器翻译的最佳评估方法?

Best evaluation method for real-time machine translation?

我知道有很多不同的方法,如 BLEU、NIST、METEOR 等。它们各有利弊,而且它们的有效性因语料库而异。我对实时翻译很感兴趣,这样两个人就可以通过一次输入几个句子并立即翻译来进行对话。

这算什么语料库?文本是否会被认为太短而无法通过大多数常规方法进行适当评估?说话者不断切换的事实是否会使上下文更加困难?

您要求的内容属于 置信度估计 领域,如今(在机器翻译 (MT) 社区内)更广为人知的是 质量估计,即 "assigning a score to MT output without access to a reference translation"。

对于 MT 评估(使用 BLEU、NIST 或 METEOR),您需要:

  1. 假设翻译(MT输出)
  2. 参考翻译(来自测试集)

在您的情况下(real-time 翻译),您没有 (2)。因此,您必须根据源句子的特征和假设翻译,以及您对 MT 过程的了解来评估系统的性能。

具有 17 个特征的基线系统描述于:

  • Specia, L.、Turchi, M.、Cancedda, N.、Dymetman, M. 和 Cristianini, N. (2009b)。估计机器翻译系统的句子水平质量。第 13 届欧洲机器翻译协会会议,(第 28-37 页)
  • 你能找到哪个here

质量评估是一个活跃的研究课题。可以在 WMT 会议的网站上了解最新进展。查找质量评估共享任务,例如 http://www.statmt.org/wmt17/quality-estimation-task.html

您的语料库可以是聊天或一种问答。 如果你有很多可用的句子建议,那么你可以尝试 https://gitlab.com/Bachstelze/translation-metric/tree/master/ 它是句子级别的矢量 space 模型方法,因此您不必学习特定语言的系统,只要句子不太通顺,说话者之间的切换应该不是问题短.