如何检测网页的语言
How to detect language of a webpage
是否有 meta
标签给出网页的原始语言,或者我可以使用某些库来检测它?例如:
detect_language('https://play.google.com/store/movies/details?id=lzLX-xKfQhE')
==> DE (German)
detect_language('https://itunes.apple.com/jp/movie/gon-garu-zi-mu-ban/id944521490?l=en')
==> JP (Japanese)
这两个页面的语言可以说是英语!页面上的大部分 content 是其他语言,但页面结构(标签、链接等)是英文的,每个页面上的元标记都符合此评估。
来自 Google 播放页面:
<html lang="en_US">
^^^^^^^^^^^^
来自 iTunes Store 页面:
<html prefix="og: http://ogp.me/ns#" xmlns="http://www.apple.com/itms/" lang="en">
^^^^^^^^^
有些 API 可以尝试执行语言检测。一个这样的(商业)例子是 Google Translate's Detect Language call。不过,这样的 API 会对这些页面产生什么样的影响呢?有一个强有力的论据说他们都是英国人。
是否有 meta
标签给出网页的原始语言,或者我可以使用某些库来检测它?例如:
detect_language('https://play.google.com/store/movies/details?id=lzLX-xKfQhE')
==> DE (German)
detect_language('https://itunes.apple.com/jp/movie/gon-garu-zi-mu-ban/id944521490?l=en')
==> JP (Japanese)
这两个页面的语言可以说是英语!页面上的大部分 content 是其他语言,但页面结构(标签、链接等)是英文的,每个页面上的元标记都符合此评估。
来自 Google 播放页面:
<html lang="en_US">
^^^^^^^^^^^^
来自 iTunes Store 页面:
<html prefix="og: http://ogp.me/ns#" xmlns="http://www.apple.com/itms/" lang="en">
^^^^^^^^^
有些 API 可以尝试执行语言检测。一个这样的(商业)例子是 Google Translate's Detect Language call。不过,这样的 API 会对这些页面产生什么样的影响呢?有一个强有力的论据说他们都是英国人。