泰卢固语 Anu 脚本文本

Question

关于 copy/pasted 到浏览器

时丢失字符的印度语言脚本

我需要了解字符类型以及它们到不同支持格式的转换。我的问题是—— 我有使用 Anu Script 软件和 Apple 键盘输入的文本。使用 Anu 输入的文本不能用作任何类型的浏览器或 Web WhatsApp 的输入。

谁能解决这个问题

复制和粘贴的文本显示如下：-  

真实文本如下图所示：-

此图片显示的是印度的一种语言，使用 Anu Script 软件输入

Answer 1

复制并粘贴到问题中的字符代码是 Unicode BMP（基本多语言平面）专用区 (PUA) 中的 Unicode 代码点。不同点是：

U+F020, U+F026, U+F02B, U+F03C, U+F054, U+F058, U+F05C, U+F06A
U+F073, U+F075, U+F077, U+F079, U+F080, U+F083, U+F087, U+F088
U+F08A, U+F090, U+F091, U+F09F, U+F0B2, U+F0BC, U+F0BF, U+F0C2
U+F0D2, U+F0D4, U+F0E1, U+F0E6, U+F0E7, U+F0EC, U+F0FB

如果你去Unicode Charts page and enter 'F020' as the code, it gives you UE000.pdf下载，里面写着：

Private Use Area

Range: E000-F8FF

The Private Use Area does not contain any character assignments, consequently no character code charts or names lists are provided for this area.

这意味着 Anu Script 软件正在使用没有国际公认含义的 Unicode 点 — 根据定义，BMP PUA 是 'private use' 并且使用 PUA 共享数据的各方必须同意代码点的含义以及如何显示它们。他们只使用理解约定的软件。您不能使用这些代码点，除非软件能够理解 Anu Script Software 的功能。

浏览器只有知道相关字体的位置才能理解这些代码点，这涉及到复杂的细节并且可能是特定于平台的。（我不知道从哪里开始！）

泰卢固语的标准 Unicode 范围是 U+0C00..U+0C7F。

Telugu

Range: 0C00–0C7F

您最好的办法可能是分析 Anu Script Software 使用的代码点与泰卢固语的 Unicode 标准范围之间的异同，然后使用 Unicode 标准代码。您可能需要了解结合口音和泰卢固语的其他各个方面。

我完全不懂泰卢固语，所以下面的内容可能不准确，但我认为它或多或少可以理解 Anu Script 软件输出中的内容：

UTF-8 bytes      PUA        Telugu  Glyph
0xEF 0x82 0x87 = U+F087 ==> U+0C08  ఈ
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x82 0x80 = U+F080 ==> U+0C06  ఆ
0xEF 0x81 0x9C = U+F05C ==> U+0C32  ల
0xEF 0x81 0xAA = U+F06A \
0xEF 0x83 0xA1 = U+F0E1 ==> U+0C2F  య  (three code points for one character)
0xEF 0x81 0x94 = U+F054 /
0xEF 0x80 0xAB = U+F02B ==> U+0C66  ౦
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x83 0x82 = U+F0C2 
0xEF 0x81 0xB3 = U+F073
0xEF 0x80 0xAB = U+F02B
0xEF 0x80 0xA6 = U+F026
0xEF 0x82 0x83 = U+F083
0xEF 0x81 0x94 = U+F054
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x8A = U+F08A
0xEF 0x81 0x98 = U+F058
0xEF 0x83 0xA6 = U+F0E6
0xEF 0x81 0xB5 = U+F075
0xEF 0x82 0xB2 = U+F0B2
0xEF 0x83 0x92 = U+F0D2
0xEF 0x81 0x9C = U+F05C
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x83 0xA7 = U+F0E7 ==> U+0C46 U+0C66  ౦ె (Note 1)
0xEF 0x82 0xBF = U+F0BF
0xEF 0x83 0xAC = U+F0EC
0xEF 0x83 0x94 = U+F0D4
0xEF 0x83 0xA1 = U+F0E1
0xEF 0x80 0xAB = U+F02B
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x81 0xB3 = U+F073
0xEF 0x82 0x90 = U+F090
0xEF 0x83 0xA7 = U+F0E7
0xEF 0x81 0xB7 = U+F077
0xEF 0x82 0x9F = U+F09F
0xEF 0x82 0xBC = U+F0BC
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x80 0xBC = U+F03C
0xEF 0x83 0xBB = U+F0FB
0xEF 0x81 0xB9 = U+F079
0xEF 0x82 0x90 = U+F090
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x91 = U+F091
0xEF 0x81 0xAA = U+F06A
0xEF 0x83 0xA1 = U+F0E1
0xEF 0x81 0x94 = U+F054
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x8A = U+F08A
0xEF 0x81 0xB3 = U+F073
0xEF 0x82 0x90 = U+F090
0xEF 0x82 0x88 = U+F088
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x91 = U+F091
0xEF 0x81 0xAA = U+F06A \
0xEF 0x83 0xA1 = U+F0E1 ==> U+0C2F  య
0xEF 0x81 0x94 = U+F054 /

注意 1：TELUGU VOWEL SIGN E U+0C46 应该与 TELUGU DIGIT ZERO U+0C66 组合——如果我已经正确识别字符，这似乎不太可能。我将停止在这里尝试；我通过将您在图像中显示的内容与 Unicode 图表页面进行匹配来识别一些形状，但我对映射到 PUA 代码点没有信心。

您应该能够从提供 Anu Script 软件的人员那里获得适当的信息。

泰卢固语 Anu 脚本文本

Telugu Anu Script Text

unicode

character

character-encoding

special-characters

non-unicode

Private Use Area

Range: E000-F8FF

Telugu

Range: 0C00–0C7F