印度语言字符的 Unicode 范围
Unicode Ranges of Indian Language Characters
出于基本验证的目的,我需要大多数常见印度文字的 Unicode 代码点范围。还请指出是否有超出这些范围的字符应单独合并。
印度语言文字范围如下:
- 梵文:U+0900 到 U+097F
- 孟加拉语:U+0980 到 U+09FF
- 古尔穆基语:U+0A00 到 U+0A7F
- 古吉拉特语:U+0A80 到 U+0AFF
- Odia:U+0B00 到 U+0B7F
- 泰米尔语:U+0B80 到 U+0BFF
- 泰卢固语:U+0C00 到 U+0C7F
- 卡纳达语:U+0C80 到 U+0CFF
- 马拉雅拉姆语:U+0D00 到 U+0D7F
除此之外,还经常使用以下超出这些范围的字符:
- 零宽度连接器:U+200C
- 零宽度Non-joiner:U+200D
- 印度卢比符号:U+20B9
另外请考虑所有 ASCII 标点符号。
Unicode 标准包括具有字符属性的数据文件。这些数据文件统称为 Unicode 字符数据库,包括两个 script-related 属性的文件:Scripts.txt and ScriptExtensions.txt. The Scripts.txt file indicates for each character what script it belongs to. For characters shared across scripts (e.g., danda), ScriptExtensions.txt lists the multiple scripts for a given character. These files use four-letter tags for scripts taken from ISO 15924.
如果您想查看具有特定脚本 属性 的所有字符(例如,所有 Devanagari 字符),您可以使用 UnicodeSet Unicode 实用程序。只需设置模式以指示您想要脚本的特定值 属性。例如,[:sc=Deva:]
代表梵文,[:sc=Beng:]
代表孟加拉语,等等。
出于基本验证的目的,我需要大多数常见印度文字的 Unicode 代码点范围。还请指出是否有超出这些范围的字符应单独合并。
印度语言文字范围如下:
- 梵文:U+0900 到 U+097F
- 孟加拉语:U+0980 到 U+09FF
- 古尔穆基语:U+0A00 到 U+0A7F
- 古吉拉特语:U+0A80 到 U+0AFF
- Odia:U+0B00 到 U+0B7F
- 泰米尔语:U+0B80 到 U+0BFF
- 泰卢固语:U+0C00 到 U+0C7F
- 卡纳达语:U+0C80 到 U+0CFF
- 马拉雅拉姆语:U+0D00 到 U+0D7F
除此之外,还经常使用以下超出这些范围的字符:
- 零宽度连接器:U+200C
- 零宽度Non-joiner:U+200D
- 印度卢比符号:U+20B9
另外请考虑所有 ASCII 标点符号。
Unicode 标准包括具有字符属性的数据文件。这些数据文件统称为 Unicode 字符数据库,包括两个 script-related 属性的文件:Scripts.txt and ScriptExtensions.txt. The Scripts.txt file indicates for each character what script it belongs to. For characters shared across scripts (e.g., danda), ScriptExtensions.txt lists the multiple scripts for a given character. These files use four-letter tags for scripts taken from ISO 15924.
如果您想查看具有特定脚本 属性 的所有字符(例如,所有 Devanagari 字符),您可以使用 UnicodeSet Unicode 实用程序。只需设置模式以指示您想要脚本的特定值 属性。例如,[:sc=Deva:]
代表梵文,[:sc=Beng:]
代表孟加拉语,等等。