阿拉伯字符是否根据字符串中的位置具有不同的 Unicode 代码点?
Do Arabic characters have different Unicode code points based on position in string?
阿拉伯字符是否根据字符串中的位置具有不同的 Unicode 代码点,还是视觉解决方案?
这是同一个词,出现了 3 次,有空格和没有空格
似乎是相同的 Unicode 值。
عربى
عرب ى
雨果
我需要做的是扫描阿拉伯字符串列表,并获取它们的值。使用这些值,我将选择要显示的特定字母的图标。
但是,如果是相同的代码点,意思是我需要在代码中创建自己的逻辑,我想避免这种情况。
不同的形状有不同的unicode,例如字母Ê \u062A
有所有这些不同形状的代码:\uFE95
ﺕ , \uFE97
ﺗ, \uFE98
ﺘ , \uFE96
ﺖ。
不过,大多数情况下,阿拉伯语文本与主要的未整形 unicode 一起保存。形状形式仅用于渲染。所以如果你通过程序检查你的文本,你会发现它大部分是未成形的。
如果你想要所有字母的形状,你可以使用像这样的整形器库:Python Arabic Reshaper:
import arabic_reshaper
reshaped_text = arabic_reshaper.reshape(u'اللغة العربية رائعة')
如果您希望所有字母不变形,请使用向下变形贴图将字母转换为其主要形状。
这是一张整形图:
SHAPING = {
u'\u0621' : ( u'\uFE80' ) ,
u'\u0622' : ( u'\uFE81', u'\uFE82' ) ,
u'\u0623' : ( u'\uFE83', u'\uFE84' ) ,
u'\u0624' : ( u'\uFE85' , u'\uFE86' ) ,
u'\u0625' : ( u'\uFE87' , u'\uFE88' ) ,
u'\u0626' : ( u'\uFE89' , u'\uFE8B' , u'\uFE8C' , u'\uFE8A' ) ,
u'\u0627' : ( u'\uFE8D' , u'\uFE8E' ) ,
u'\u0628' : ( u'\uFE8F' , u'\uFE91' , u'\uFE92' , u'\uFE90' ) ,
u'\u0629' : ( u'\uFE93' , u'\uFE94' ) ,
u'\u062A' : ( u'\uFE95' , u'\uFE97' , u'\uFE98' , u'\uFE96' ) ,
u'\u062B' : ( u'\uFE99' , u'\uFE9B' , u'\uFE9C' , u'\uFE9A' ) ,
u'\u062C' : ( u'\uFE9D' , u'\uFE9F' , u'\uFEA0', u'\uFE9E' ) ,
u'\u062D' : ( u'\uFEA1' , u'\uFEA3' , u'\uFEA4' , u'\uFEA2' ) ,
u'\u062E' : ( u'\uFEA5' , u'\uFEA7' , u'\uFEA8' , u'\uFEA6' ) ,
u'\u062F' : ( u'\uFEA9' , u'\uFEAA' ) ,
u'\u0630' : ( u'\uFEAB' , u'\uFEAC' ) ,
u'\u0631' : ( u'\uFEAD' , u'\uFEAE' ) ,
u'\u0632' : ( u'\uFEAF' , u'\uFEB0' ) ,
u'\u0633' : ( u'\uFEB1' , u'\uFEB3' , u'\uFEB4' , u'\uFEB2' ) ,
u'\u0634' : ( u'\uFEB5' , u'\uFEB7' , u'\uFEB8' , u'\uFEB6' ) ,
u'\u0635' : ( u'\uFEB9' , u'\uFEBB' , u'\uFEBC' , u'\uFEBA' ) ,
u'\u0636' : ( u'\uFEBD' , u'\uFEBF' , u'\uFEC0' , u'\uFEBE' ) ,
u'\u0637' : ( u'\uFEC1' , u'\uFEC3' , u'\uFEC4' , u'\uFEC2' ) ,
u'\u0638' : ( u'\uFEC5' , u'\uFEC7' , u'\uFEC8' , u'\uFEC6' ) ,
u'\u0639' : ( u'\uFEC9' , u'\uFECB' , u'\uFECC' , u'\uFECA' ) ,
u'\u063A' : ( u'\uFECD' , u'\uFECF' , u'\uFED0', u'\uFECE' ) ,
u'\u0640' : ( u'\u0640' ) ,
u'\u0641' : ( u'\uFED1' , u'\uFED3' , u'\uFED4' , u'\uFED2' ) ,
u'\u0642' : ( u'\uFED5' , u'\uFED7' , u'\uFED8' , u'\uFED6' ) ,
u'\u0643' : ( u'\uFED9' , u'\uFEDB' , u'\uFEDC' , u'\uFEDA' ) ,
u'\u0644' : ( u'\uFEDD' , u'\uFEDF' , u'\uFEE0', u'\uFEDE' ) ,
u'\u0645' : ( u'\uFEE1' , u'\uFEE3' , u'\uFEE4' , u'\uFEE2' ) ,
u'\u0646' : ( u'\uFEE5' , u'\uFEE7' , u'\uFEE8' , u'\uFEE6' ) ,
u'\u0647' : ( u'\uFEE9' , u'\uFEEB' , u'\uFEEC' , u'\uFEEA' ) ,
u'\u0648' : ( u'\uFEED' , u'\uFEEE' ) ,
u'\u0649' : ( u'\uFEEF' , u'\uFEF0' ) ,
u'\u064A' : ( u'\uFEF1' , u'\uFEF3' , u'\uFEF4' , u'\uFEF2' )
}
阿拉伯语在 Unicode 中保留了 5 个字符块:
- U+0600 .. U+06FF 阿拉伯语
- U+0750 .. U+077F 阿拉伯语增补
- U+08A0 .. U+08FF 阿拉伯语扩展 A
- U+FB50 .. U+FDFF 阿拉伯文表示形式 A
- U+FE70 .. U+FEFF 阿拉伯语演示文稿 B
问题中的示例文本全部使用 4 个代码点进行编码:
- UTF-8 0xD8 0xB9 = U+0639 = 阿拉伯字母 AIN
- UTF-8 0xD8 0xB1 = U+0631 = 阿拉伯字母 REH
- UTF-8 0xD8 0xA8 = U+0628 = 阿拉伯文字母 BEH
- UTF-8 0xD9 0x89 = U+0649 = 阿拉伯字母 ALEF MAKSURA
此外,还有空格和一些出现的:
- UTF-8 0xE2 0x80 0x8E = U+200E = 从左到右标记 (LRM)
尽管使用相同的 Unicode 代码点来存储数据,但阿拉伯字母的显示方式有所不同,这一事实表明您需要调整显示的字形以适应其相对于其他字符的位置(开头、中间、词尾,或独立)。您可以阅读第 9 章 (Middle East–I) 以了解有关处理阿拉伯文本的更多信息。
阿拉伯字符是否根据字符串中的位置具有不同的 Unicode 代码点,还是视觉解决方案?
这是同一个词,出现了 3 次,有空格和没有空格 似乎是相同的 Unicode 值。
عربى
عرب ى
雨果
我需要做的是扫描阿拉伯字符串列表,并获取它们的值。使用这些值,我将选择要显示的特定字母的图标。 但是,如果是相同的代码点,意思是我需要在代码中创建自己的逻辑,我想避免这种情况。
不同的形状有不同的unicode,例如字母Ê \u062A
有所有这些不同形状的代码:\uFE95
ﺕ , \uFE97
ﺗ, \uFE98
ﺘ , \uFE96
ﺖ。
不过,大多数情况下,阿拉伯语文本与主要的未整形 unicode 一起保存。形状形式仅用于渲染。所以如果你通过程序检查你的文本,你会发现它大部分是未成形的。
如果你想要所有字母的形状,你可以使用像这样的整形器库:Python Arabic Reshaper:
import arabic_reshaper
reshaped_text = arabic_reshaper.reshape(u'اللغة العربية رائعة')
如果您希望所有字母不变形,请使用向下变形贴图将字母转换为其主要形状。
这是一张整形图:
SHAPING = {
u'\u0621' : ( u'\uFE80' ) ,
u'\u0622' : ( u'\uFE81', u'\uFE82' ) ,
u'\u0623' : ( u'\uFE83', u'\uFE84' ) ,
u'\u0624' : ( u'\uFE85' , u'\uFE86' ) ,
u'\u0625' : ( u'\uFE87' , u'\uFE88' ) ,
u'\u0626' : ( u'\uFE89' , u'\uFE8B' , u'\uFE8C' , u'\uFE8A' ) ,
u'\u0627' : ( u'\uFE8D' , u'\uFE8E' ) ,
u'\u0628' : ( u'\uFE8F' , u'\uFE91' , u'\uFE92' , u'\uFE90' ) ,
u'\u0629' : ( u'\uFE93' , u'\uFE94' ) ,
u'\u062A' : ( u'\uFE95' , u'\uFE97' , u'\uFE98' , u'\uFE96' ) ,
u'\u062B' : ( u'\uFE99' , u'\uFE9B' , u'\uFE9C' , u'\uFE9A' ) ,
u'\u062C' : ( u'\uFE9D' , u'\uFE9F' , u'\uFEA0', u'\uFE9E' ) ,
u'\u062D' : ( u'\uFEA1' , u'\uFEA3' , u'\uFEA4' , u'\uFEA2' ) ,
u'\u062E' : ( u'\uFEA5' , u'\uFEA7' , u'\uFEA8' , u'\uFEA6' ) ,
u'\u062F' : ( u'\uFEA9' , u'\uFEAA' ) ,
u'\u0630' : ( u'\uFEAB' , u'\uFEAC' ) ,
u'\u0631' : ( u'\uFEAD' , u'\uFEAE' ) ,
u'\u0632' : ( u'\uFEAF' , u'\uFEB0' ) ,
u'\u0633' : ( u'\uFEB1' , u'\uFEB3' , u'\uFEB4' , u'\uFEB2' ) ,
u'\u0634' : ( u'\uFEB5' , u'\uFEB7' , u'\uFEB8' , u'\uFEB6' ) ,
u'\u0635' : ( u'\uFEB9' , u'\uFEBB' , u'\uFEBC' , u'\uFEBA' ) ,
u'\u0636' : ( u'\uFEBD' , u'\uFEBF' , u'\uFEC0' , u'\uFEBE' ) ,
u'\u0637' : ( u'\uFEC1' , u'\uFEC3' , u'\uFEC4' , u'\uFEC2' ) ,
u'\u0638' : ( u'\uFEC5' , u'\uFEC7' , u'\uFEC8' , u'\uFEC6' ) ,
u'\u0639' : ( u'\uFEC9' , u'\uFECB' , u'\uFECC' , u'\uFECA' ) ,
u'\u063A' : ( u'\uFECD' , u'\uFECF' , u'\uFED0', u'\uFECE' ) ,
u'\u0640' : ( u'\u0640' ) ,
u'\u0641' : ( u'\uFED1' , u'\uFED3' , u'\uFED4' , u'\uFED2' ) ,
u'\u0642' : ( u'\uFED5' , u'\uFED7' , u'\uFED8' , u'\uFED6' ) ,
u'\u0643' : ( u'\uFED9' , u'\uFEDB' , u'\uFEDC' , u'\uFEDA' ) ,
u'\u0644' : ( u'\uFEDD' , u'\uFEDF' , u'\uFEE0', u'\uFEDE' ) ,
u'\u0645' : ( u'\uFEE1' , u'\uFEE3' , u'\uFEE4' , u'\uFEE2' ) ,
u'\u0646' : ( u'\uFEE5' , u'\uFEE7' , u'\uFEE8' , u'\uFEE6' ) ,
u'\u0647' : ( u'\uFEE9' , u'\uFEEB' , u'\uFEEC' , u'\uFEEA' ) ,
u'\u0648' : ( u'\uFEED' , u'\uFEEE' ) ,
u'\u0649' : ( u'\uFEEF' , u'\uFEF0' ) ,
u'\u064A' : ( u'\uFEF1' , u'\uFEF3' , u'\uFEF4' , u'\uFEF2' )
}
阿拉伯语在 Unicode 中保留了 5 个字符块:
- U+0600 .. U+06FF 阿拉伯语
- U+0750 .. U+077F 阿拉伯语增补
- U+08A0 .. U+08FF 阿拉伯语扩展 A
- U+FB50 .. U+FDFF 阿拉伯文表示形式 A
- U+FE70 .. U+FEFF 阿拉伯语演示文稿 B
问题中的示例文本全部使用 4 个代码点进行编码:
- UTF-8 0xD8 0xB9 = U+0639 = 阿拉伯字母 AIN
- UTF-8 0xD8 0xB1 = U+0631 = 阿拉伯字母 REH
- UTF-8 0xD8 0xA8 = U+0628 = 阿拉伯文字母 BEH
- UTF-8 0xD9 0x89 = U+0649 = 阿拉伯字母 ALEF MAKSURA
此外,还有空格和一些出现的:
- UTF-8 0xE2 0x80 0x8E = U+200E = 从左到右标记 (LRM)
尽管使用相同的 Unicode 代码点来存储数据,但阿拉伯字母的显示方式有所不同,这一事实表明您需要调整显示的字形以适应其相对于其他字符的位置(开头、中间、词尾,或独立)。您可以阅读第 9 章 (Middle East–I) 以了解有关处理阿拉伯文本的更多信息。