NLP

Question

希望你能帮助我:)。

我在一家翻译公司工作。

如您所知，每次翻译都包括将原文分成小段，然后将它们重新连接成最终产品。

换句话说，句段被视为“翻译单元”。

经常，尤其是对于大文档，翻译人员会犯一些语言一致性错误，我试着用一个例子来解释。

在西班牙语中，您可以根据上下文使用 "tu" 或 "usted"，这决定了句子的正式-非正式语气。

因此，如果您考虑文档的这两个句子：

Lara, te has lavado las manos? (TU)

Lara usted se lavò las manos? (USTED)

它们都是正确的，但是如果您考虑整个文档，就会发现语言不一致。

我在业余时间学习 NLP 基础知识，并且正在弄清楚如何创建一个工具来对一组句子执行语言一致性分析。

我特别关注 Standford CoreNLP（我更喜欢 Java 而不是 Python）。我想我首先需要一些语言工具来进行动词分析。当然，该工具将能够使用不同的语言（EN、IT、ES、FR、PT）。

谁能帮我弄清楚如何开始这个？

如有任何帮助，我们将不胜感激，

提前致谢！

Answer 1

我不确定 Stanford CoreNLP，但如果您正在考虑这个选项，您可以制作自己的标注器并在词性标注中使用修饰符。然后，将其用作翻译功能。

换句话说，您可以将它标记为 "a verb in the infinitive second person".

，而不是仅仅将单词标记为动词

已经有 良好的预标记西班牙语语料库 可以帮助您做到这一点。例如，如果您查看 Universal Dependencies Ankora Corpus, you can find that there are annotations referring to the Person of a verb。

稍微调整一下，您可以制作一个包含 "Verb-1st-Person" 或类似内容的 Compose PoS，然后 训练 Tagger。

我已经在 Python 中写了一篇关于如何做到这一点的文章，但我敢打赌您可以在 Java 中使用 Weka 来做到这一点。 You can read the article here.

在此之后，我想下一步是确保将一个 "translation unit" 的人与另一个匹配，或者以流水线方式制作一些东西。

NLP - 语言一致性分析