实时机器翻译的最佳评估方法?
Best evaluation method for real-time machine translation?
我知道有很多不同的方法,如 BLEU、NIST、METEOR 等。它们各有利弊,而且它们的有效性因语料库而异。我对实时翻译很感兴趣,这样两个人就可以通过一次输入几个句子并立即翻译来进行对话。
这算什么语料库?文本是否会被认为太短而无法通过大多数常规方法进行适当评估?说话者不断切换的事实是否会使上下文更加困难?
您要求的内容属于 置信度估计 领域,如今(在机器翻译 (MT) 社区内)更广为人知的是 质量估计,即 "assigning a score to MT output without access to a reference translation"。
对于 MT 评估(使用 BLEU、NIST 或 METEOR),您需要:
- 假设翻译(MT输出)
- 参考翻译(来自测试集)
在您的情况下(real-time 翻译),您没有 (2)。因此,您必须根据源句子的特征和假设翻译,以及您对 MT 过程的了解来评估系统的性能。
具有 17 个特征的基线系统描述于:
- Specia, L.、Turchi, M.、Cancedda, N.、Dymetman, M. 和 Cristianini, N. (2009b)。估计机器翻译系统的句子水平质量。第 13 届欧洲机器翻译协会会议,(第 28-37 页)
- 你能找到哪个here
质量评估是一个活跃的研究课题。可以在 WMT 会议的网站上了解最新进展。查找质量评估共享任务,例如 http://www.statmt.org/wmt17/quality-estimation-task.html
您的语料库可以是聊天或一种问答。
如果你有很多可用的句子建议,那么你可以尝试 https://gitlab.com/Bachstelze/translation-metric/tree/master/
它是句子级别的矢量 space 模型方法,因此您不必学习特定语言的系统,只要句子不太通顺,说话者之间的切换应该不是问题短.
我知道有很多不同的方法,如 BLEU、NIST、METEOR 等。它们各有利弊,而且它们的有效性因语料库而异。我对实时翻译很感兴趣,这样两个人就可以通过一次输入几个句子并立即翻译来进行对话。
这算什么语料库?文本是否会被认为太短而无法通过大多数常规方法进行适当评估?说话者不断切换的事实是否会使上下文更加困难?
您要求的内容属于 置信度估计 领域,如今(在机器翻译 (MT) 社区内)更广为人知的是 质量估计,即 "assigning a score to MT output without access to a reference translation"。
对于 MT 评估(使用 BLEU、NIST 或 METEOR),您需要:
- 假设翻译(MT输出)
- 参考翻译(来自测试集)
在您的情况下(real-time 翻译),您没有 (2)。因此,您必须根据源句子的特征和假设翻译,以及您对 MT 过程的了解来评估系统的性能。
具有 17 个特征的基线系统描述于:
- Specia, L.、Turchi, M.、Cancedda, N.、Dymetman, M. 和 Cristianini, N. (2009b)。估计机器翻译系统的句子水平质量。第 13 届欧洲机器翻译协会会议,(第 28-37 页)
- 你能找到哪个here
质量评估是一个活跃的研究课题。可以在 WMT 会议的网站上了解最新进展。查找质量评估共享任务,例如 http://www.statmt.org/wmt17/quality-estimation-task.html
您的语料库可以是聊天或一种问答。 如果你有很多可用的句子建议,那么你可以尝试 https://gitlab.com/Bachstelze/translation-metric/tree/master/ 它是句子级别的矢量 space 模型方法,因此您不必学习特定语言的系统,只要句子不太通顺,说话者之间的切换应该不是问题短.