实时机器翻译的最佳评估方法？

Best evaluation method for real-time machine translation?

我知道有很多不同的方法，如 BLEU、NIST、METEOR 等。它们各有利弊，而且它们的有效性因语料库而异。我对实时翻译很感兴趣，这样两个人就可以通过一次输入几个句子并立即翻译来进行对话。

这算什么语料库？文本是否会被认为太短而无法通过大多数常规方法进行适当评估？说话者不断切换的事实是否会使上下文更加困难？

您要求的内容属于 置信度估计 领域，如今（在机器翻译 (MT) 社区内）更广为人知的是 质量估计，即 "assigning a score to MT output without access to a reference translation"。

对于 MT 评估（使用 BLEU、NIST 或 METEOR），您需要：

假设翻译（MT输出）
参考翻译（来自测试集）

在您的情况下（real-time 翻译），您没有 (2)。因此，您必须根据源句子的特征和假设翻译，以及您对 MT 过程的了解来评估系统的性能。

具有 17 个特征的基线系统描述于：

Specia, L.、Turchi, M.、Cancedda, N.、Dymetman, M. 和 Cristianini, N. (2009b)。估计机器翻译系统的句子水平质量。第 13 届欧洲机器翻译协会会议，（第 28-37 页）
你能找到哪个here

质量评估是一个活跃的研究课题。可以在 WMT 会议的网站上了解最新进展。查找质量评估共享任务，例如 http://www.statmt.org/wmt17/quality-estimation-task.html

您的语料库可以是聊天或一种问答。如果你有很多可用的句子建议，那么你可以尝试 https://gitlab.com/Bachstelze/translation-metric/tree/master/ 它是句子级别的矢量 space 模型方法，因此您不必学习特定语言的系统，只要句子不太通顺，说话者之间的切换应该不是问题短.

实时机器翻译的最佳评估方法？

Best evaluation method for real-time machine translation?

nlp

machine-translation

precision-recall