Huggingface MarianMT 翻译器丢失内容,具体取决于模型

Huggingface MarianMT translators lose content, depending on the model

上下文

我正在通过 Python 使用 MarianMT von Huggingface,以便 运行 将文本从源语言转换为目标语言。

预期行为

我将一个序列输入到 MarianMT 模型中,然后得到这个序列 t运行。为此,我使用相应的语言模型和标记器。我输入的所有句子也都回来了。这些句子被视为一个序列。

当前行为

根据语言模型,该模型不会 运行 列出所有内容,而只列出 returns 部分。在这个例子中,缺少最后一句:

原文(德语): Ein Nilpferd lief im Dschungel rum und musste aufs WC。 Da traf es einen Kakadu und fragte nach dem Weg。 Der sagte wenn du Kaka musst,dann pass mal ganz kurz auf。 Ich sag dir wo du hingehen musst, ich kenn mich hier gut aus.

结果(英文):一只河马运行在丛林里转来转去,不得不上厕所。有凤头鹦鹉问路。他说,如果你必须卡卡,那么请注意一分钟。 我会告诉你必须去的地方,我知道这附近的路。

结果(荷兰语): Een nijlpaard liep rond in de jungle en moest naar het toilet...en een kaketoe vroeg naar de weg...die zei dat als je Kaka moest, ik even moest oppassen.

当前代码

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM


def translate_text(input, source, target):

    # Prepare output
    output = ""

    model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-" + source + "-" + target)
    tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-" + source + "-" + target)

    inputs = tokenizer.encode(input[:512], return_tensors="pt", padding='longest')
    outputs = model.generate(inputs, max_length=4000, num_beams=4, early_stopping=True)

    for t in [tokenizer.convert_ids_to_tokens(s) for s in outputs.tolist()[0]]:
        output = output + t.replace("▁", " ").replace("</s>", "")

    output.replace("<pad>", "")

    return output


print(translate_text("Ein Nilpferd lief im Dschungel rum und musste aufs WC. Da traf es einen Kakadu und fragte nach dem Weg. Der sagte wenn du Kaka musst, dann pass mal ganz kurz auf. Ich sag dir wo du hingehen musst, ich kenn mich hier gut aus.", "de", "nl"))
print(translate_text("Ein Nilpferd lief im Dschungel rum und musste aufs WC. Da traf es einen Kakadu und fragte nach dem Weg. Der sagte wenn du Kaka musst, dann pass mal ganz kurz auf. Ich sag dir wo du hingehen musst, ich kenn mich hier gut aus.", "de", "en"))

需要帮助

我想念什么?为什么缺少一些序列部分?

在这种情况下,您可以将其翻译成英文:

de_en = translate_text("Ein Nilpferd lief im Dschungel rum und musste aufs WC. Da traf es einen Kakadu und fragte nach dem Weg. Der sagte wenn du Kaka musst, dann pass mal ganz kurz auf. Ich sag dir wo du hingehen musst, ich kenn mich hier gut aus.", "de", "en")

en_nl = translate_text(de_en, "en", "nl")

print(en_nl)

结果: 一头河马在丛林里跑来跑去,不得不上厕所。有凤头鹦鹉问路。他说,如果你必须卡卡,那么请注意一分钟。 我会告诉你去哪里,我知道我在这里的路。


最后一句没有消失,只是质量低了点。 De->En 和 En->Nl 模型 可能 在他们的训练数据中有比 De->Nl 更长的句子(你永远不知道),这就是为什么最后一句话没有从翻译中消失。但同时,翻译成英文可能会造成一些信息丢失(例如du/Sie -> you)。

给定模型的名称(在 OPUS 语料库上训练),句子理论上有多大,您可以在这里看到:http://opus.nlpl.eu/Europarl/v8/de-nl_sample.html or here: http://opus.nlpl.eu/MultiParaCrawl/v7.1/de-nl_sample.html; 或其他 de-nl opus.nlpl.eu

处的样本

可在此处获取更多信息:https://github.com/Helsinki-NLP/Opus-MT

tl;dr 事实上,这些模型翻译多个粘在一起的句子很可能只是一种不应依赖的副作用。