印度语言字符的 Unicode 范围

Unicode Ranges of Indian Language Characters

出于基本验证的目的，我需要大多数常见印度文字的 Unicode 代码点范围。还请指出是否有超出这些范围的字符应单独合并。

印度语言文字范围如下：

梵文：U+0900 到 U+097F
孟加拉语：U+0980 到 U+09FF
古尔穆基语：U+0A00 到 U+0A7F
古吉拉特语：U+0A80 到 U+0AFF
Odia:U+0B00 到 U+0B7F
泰米尔语：U+0B80 到 U+0BFF
泰卢固语：U+0C00 到 U+0C7F
卡纳达语：U+0C80 到 U+0CFF
马拉雅拉姆语：U+0D00 到 U+0D7F

除此之外，还经常使用以下超出这些范围的字符：

零宽度连接器：U+200C
零宽度Non-joiner：U+200D
印度卢比符号：U+20B9

另外请考虑所有 ASCII 标点符号。

Unicode 标准包括具有字符属性的数据文件。这些数据文件统称为 Unicode 字符数据库，包括两个 script-related 属性的文件：Scripts.txt and ScriptExtensions.txt. The Scripts.txt file indicates for each character what script it belongs to. For characters shared across scripts (e.g., danda), ScriptExtensions.txt lists the multiple scripts for a given character. These files use four-letter tags for scripts taken from ISO 15924.

如果您想查看具有特定脚本属性的所有字符（例如，所有 Devanagari 字符），您可以使用 UnicodeSet Unicode 实用程序。只需设置模式以指示您想要脚本的特定值属性。例如，[:sc=Deva:] 代表梵文，[:sc=Beng:] 代表孟加拉语，等等。

印度语言字符的 Unicode 范围

Unicode Ranges of Indian Language Characters

unicode

validation

indic

devanagari

script