基于内容的网页语言检测
Web page Language detection based on content
我从事网页语言检测工作,我设法通过我开发的其他中间件检索页面的内容。由于内容位置没有标准化。但是,我不知道如何检测我尝试使用 lang 和 xml:lang 标签的语言,但它们并不像我预期的那样有效,因为我看到一些网站使用与标签中指定的语言不同的语言,任何帮助将不胜感激? (环境java日食)
这是nlp中的经典问题,给出了很好的预测。这个 post 看起来类似于这个:link 并且有一些很好的答案。
我不熟悉那里提到的解决方案,但我确实将 Apache Tika 用于另一件事,它是一个很棒的开源软件。希望有帮助..
我从事网页语言检测工作,我设法通过我开发的其他中间件检索页面的内容。由于内容位置没有标准化。但是,我不知道如何检测我尝试使用 lang 和 xml:lang 标签的语言,但它们并不像我预期的那样有效,因为我看到一些网站使用与标签中指定的语言不同的语言,任何帮助将不胜感激? (环境java日食)
这是nlp中的经典问题,给出了很好的预测。这个 post 看起来类似于这个:link 并且有一些很好的答案。 我不熟悉那里提到的解决方案,但我确实将 Apache Tika 用于另一件事,它是一个很棒的开源软件。希望有帮助..