google 翻译错误语言检测(多种语言)

wrong language detection with google translate (multiple languages)

我目前正在努力翻译一段包含多种语言的段落。

现在我已经通过 google 翻译 API 实现了,如果我们说: hello bye hola 它会将语言检测为英语,如果它: hello hola adios 然后它将检测西班牙语。

所以基本上,无论哪种语言在 sentence/paragraph 中的字数最多,它都会检测到该语言。现在有趣的是 google 翻译他们实际上有这个功能。

有没有办法解决这个问题,让它只检测外语而不检测英语?

不,Google 翻译 API 没有办法做到这一点,因为他们的 public API.

如果您使用备用语言检测库,您可以定义一个阈值,在该阈值下删除较少代表的语言的内容。这将允许您删除英语内容,如果它在您的整个样本中所占文本的比例少于 30%。

例如,参见 RemoveMinorityScriptsTextFilterTest class in the optimaize/language-detector 项目。