基于内容的网页语言检测

Web page Language detection based on content

我从事网页语言检测工作，我设法通过我开发的其他中间件检索页面的内容。由于内容位置没有标准化。但是，我不知道如何检测我尝试使用 lang 和 xml:lang 标签的语言，但它们并不像我预期的那样有效，因为我看到一些网站使用与标签中指定的语言不同的语言，任何帮助将不胜感激？（环境java日食）

这是nlp中的经典问题，给出了很好的预测。这个 post 看起来类似于这个：link 并且有一些很好的答案。我不熟悉那里提到的解决方案，但我确实将 Apache Tika 用于另一件事，它是一个很棒的开源软件。希望有帮助..