IBM Watson Language Translation - 使用平行语料库进行训练的正确方法
IBM Watson Language Translation - correct way to train using parallel corpus
我有一堆翻译的文章,想作为IBM Watson语言翻译的训练数据。使用这些文章进行训练的正确方法是什么?我是使用整篇文章及其翻译作为平行语料库中的条目,还是必须将文章拆分成句子并将其翻译对作为条目?
你有两个选择。
要么将文本分成短语对,每个短语都有一个从和到,然后创建一个 forced_glossary 或一个 parallel_corpus。
或将所有翻译文本作为单个文件发送以创建 monolingual_corpus。
详细文档可在 https://www.ibm.com/watson/developercloud/doc/language-translator/customizing.html#training
API 文档位于 https://www.ibm.com/watson/developercloud/language-translator/api/v2/?curl#create-model
我有一堆翻译的文章,想作为IBM Watson语言翻译的训练数据。使用这些文章进行训练的正确方法是什么?我是使用整篇文章及其翻译作为平行语料库中的条目,还是必须将文章拆分成句子并将其翻译对作为条目?
你有两个选择。
要么将文本分成短语对,每个短语都有一个从和到,然后创建一个 forced_glossary 或一个 parallel_corpus。
或将所有翻译文本作为单个文件发送以创建 monolingual_corpus。
详细文档可在 https://www.ibm.com/watson/developercloud/doc/language-translator/customizing.html#training API 文档位于 https://www.ibm.com/watson/developercloud/language-translator/api/v2/?curl#create-model