我如何检测同一行上的多种语言?
How do i detect multiple languages on the same line?
java 和 python 中有几个 api,也尝试了一些在线演示,但所有 api 都采用了句子作为一个整体并给出一个整体可能的语言。在我的例子中,我在同一行上有多种语言需要检测,除了英语之外的语言将被删除,同时保持句子的意思不变。
示例:
- 对化粪池安全。 / Sans danger pour les fosses septiques。储存在阴凉,干燥的地方。 / Ranger dans un endroit frais et sec.
- 4X CONCENTRATED TO CLEAN BETTER* 4X PLUS CONCENTRÉ POUR MIEUX NETTOYER*
- 无磷酸盐无磷酸盐
- Imported for / Importé pour PROCTER & GAMBLE INC., TORONTO, ON M5W 1C5
我相信您从评论中找到的方向是最好的解决方案:"i have tried -tokenizing the entire sentence into words and checking language for each words"。但是你应该考虑开发一个bag of words algorithm。
简单地说,你会计算句子中所有单词的出现次数,并将它们存储在一个列表中,该列表还带有它们所属语言的索引。
但是,当您在一个可能共享单词的句子中检测多种语言时,您需要多个列表,语言单词出现次数最多的列表将决定句子每个部分的语言。
This is an English sentence written in english,dans un endroit frais et sec
[english:english:2][this:english:1][is:english:1][an:english:1][sentence:english:1][written:english:1][in:english:1]
[dans:french:1][un:french:1][endroit:french:1][et:french:1][sec:french:1]
this->beginning->list index 0, sentence->end of english->list index 3
然而,这仍然可能会在您的示例中产生错误,因为样本越小 space 结果就越不准确:
化粪池安全。 / Sans danger pour les fosses septiques。储存在阴凉,干燥的地方。 / Ranger dans un endroit frais et sec. (所有单词只出现一次,这无助于通过单词计数来确定语言,只能通过它们连续属于哪种语言的总和)
无论如何希望这种说法是有道理的,希望它能以某种方式帮助您找到解决方案。请随时发表评论,我会尽力帮助您解决问题。
java 和 python 中有几个 api,也尝试了一些在线演示,但所有 api 都采用了句子作为一个整体并给出一个整体可能的语言。在我的例子中,我在同一行上有多种语言需要检测,除了英语之外的语言将被删除,同时保持句子的意思不变。
示例:
- 对化粪池安全。 / Sans danger pour les fosses septiques。储存在阴凉,干燥的地方。 / Ranger dans un endroit frais et sec.
- 4X CONCENTRATED TO CLEAN BETTER* 4X PLUS CONCENTRÉ POUR MIEUX NETTOYER*
- 无磷酸盐无磷酸盐
- Imported for / Importé pour PROCTER & GAMBLE INC., TORONTO, ON M5W 1C5
我相信您从评论中找到的方向是最好的解决方案:"i have tried -tokenizing the entire sentence into words and checking language for each words"。但是你应该考虑开发一个bag of words algorithm。
简单地说,你会计算句子中所有单词的出现次数,并将它们存储在一个列表中,该列表还带有它们所属语言的索引。 但是,当您在一个可能共享单词的句子中检测多种语言时,您需要多个列表,语言单词出现次数最多的列表将决定句子每个部分的语言。
This is an English sentence written in english,dans un endroit frais et sec
[english:english:2][this:english:1][is:english:1][an:english:1][sentence:english:1][written:english:1][in:english:1]
[dans:french:1][un:french:1][endroit:french:1][et:french:1][sec:french:1]
this->beginning->list index 0, sentence->end of english->list index 3
然而,这仍然可能会在您的示例中产生错误,因为样本越小 space 结果就越不准确:
化粪池安全。 / Sans danger pour les fosses septiques。储存在阴凉,干燥的地方。 / Ranger dans un endroit frais et sec. (所有单词只出现一次,这无助于通过单词计数来确定语言,只能通过它们连续属于哪种语言的总和)
无论如何希望这种说法是有道理的,希望它能以某种方式帮助您找到解决方案。请随时发表评论,我会尽力帮助您解决问题。