如何 detect/handle 多种 unicode 方式来编码字母上的重音
How to detect/handle multiple unicode ways to encode an accent over a letter
信不信由你,这个词的 iota(最后一个字母)似乎在 unicode 中以两种不同的方式编码:
- εἰμί(带有 TONOS 的 U+03AF 的希腊小写字母 IOTA)
- εἰμί(带有 OXIA' U+1F77 的希腊小写字母 IOTA)
我假设有时字母被编码为单个字母,而有时它被编码为字母+重音符号。
是否有某种地图或数据库允许我们在我可以导入到我的代码中的两者之间进行转换。
Believe it or not
让我们离开幻想世界吧。
Duplicated vowel+oxia characters in Greek Unicode range
Unicode: Frequently Asked Questions: Normalization
The Go Blog: Text normalization in Go
例如,
package main
import (
"bytes"
"fmt"
"golang.org/x/text/unicode/norm"
)
func Equal(a, b string) bool {
var ia, ib norm.Iter
ia.InitString(norm.NFKD, a)
ib.InitString(norm.NFKD, b)
for !ia.Done() && !ib.Done() {
if !bytes.Equal(ia.Next(), ib.Next()) {
return false
}
}
return ia.Done() && ib.Done()
}
func main() {
a := "εἰμ\u03AF"
b := "εἰμ\u1F77"
fmt.Println(a)
fmt.Println(b)
fmt.Println(a == b)
fmt.Println(Equal(a, b))
}
输出:
εἰμί
εἰμί
false
true
信不信由你,这个词的 iota(最后一个字母)似乎在 unicode 中以两种不同的方式编码:
- εἰμί(带有 TONOS 的 U+03AF 的希腊小写字母 IOTA)
- εἰμί(带有 OXIA' U+1F77 的希腊小写字母 IOTA)
我假设有时字母被编码为单个字母,而有时它被编码为字母+重音符号。
是否有某种地图或数据库允许我们在我可以导入到我的代码中的两者之间进行转换。
Believe it or not
让我们离开幻想世界吧。
Duplicated vowel+oxia characters in Greek Unicode range
Unicode: Frequently Asked Questions: Normalization
The Go Blog: Text normalization in Go
例如,
package main
import (
"bytes"
"fmt"
"golang.org/x/text/unicode/norm"
)
func Equal(a, b string) bool {
var ia, ib norm.Iter
ia.InitString(norm.NFKD, a)
ib.InitString(norm.NFKD, b)
for !ia.Done() && !ib.Done() {
if !bytes.Equal(ia.Next(), ib.Next()) {
return false
}
}
return ia.Done() && ib.Done()
}
func main() {
a := "εἰμ\u03AF"
b := "εἰμ\u1F77"
fmt.Println(a)
fmt.Println(b)
fmt.Println(a == b)
fmt.Println(Equal(a, b))
}
输出:
εἰμί
εἰμί
false
true