印度语言字符的 Unicode 范围

Unicode Ranges of Indian Language Characters

出于基本验证的目的,我需要大多数常见印度文字的 Unicode 代码点范围。还请指出是否有超出这些范围的字符应单独合并。

印度语言文字范围如下:

  • 梵文:U+0900 到 U+097F
  • 孟加拉语:U+0980 到 U+09FF
  • 古尔穆基语:U+0A00 到 U+0A7F
  • 古吉拉特语:U+0A80 到 U+0AFF
  • Odia:U+0B00 到 U+0B7F
  • 泰米尔语:U+0B80 到 U+0BFF
  • 泰卢固语:U+0C00 到 U+0C7F
  • 卡纳达语:U+0C80 到 U+0CFF
  • 马拉雅拉姆语:U+0D00 到 U+0D7F

除此之外,还经常使用以下超出这些范围的字符:

  • 零宽度连接器:U+200C
  • 零宽度Non-joiner:U+200D
  • 印度卢比符号:U+20B9

另外请考虑所有 ASCII 标点符号。

Unicode 标准包括具有字符属性的数据文件。这些数据文件统称为 Unicode 字符数据库,包括两个 script-related 属性的文件:Scripts.txt and ScriptExtensions.txt. The Scripts.txt file indicates for each character what script it belongs to. For characters shared across scripts (e.g., danda), ScriptExtensions.txt lists the multiple scripts for a given character. These files use four-letter tags for scripts taken from ISO 15924.

如果您想查看具有特定脚本 属性 的所有字符(例如,所有 Devanagari 字符),您可以使用 UnicodeSet Unicode 实用程序。只需设置模式以指示您想要脚本的特定值 属性。例如,[:sc=Deva:] 代表梵文,[:sc=Beng:] 代表孟加拉语,等等。