泰卢固语 Anu 脚本文本
Telugu Anu Script Text
关于 copy/pasted 到浏览器
时丢失字符的印度语言脚本
我需要了解字符类型以及它们到不同支持格式的转换。我的问题是——
我有使用 Anu Script 软件和 Apple 键盘输入的文本。
使用 Anu 输入的文本不能用作任何类型的浏览器或 Web WhatsApp 的输入。
谁能解决这个问题
复制和粘贴的文本显示如下:-
真实文本如下图所示:-
此图片显示的是印度的一种语言,使用 Anu Script 软件输入
复制并粘贴到问题中的字符代码是 Unicode BMP(基本多语言平面)专用区 (PUA) 中的 Unicode 代码点。不同点是:
U+F020
,
U+F026
,
U+F02B
,
U+F03C
,
U+F054
,
U+F058
,
U+F05C
,
U+F06A
U+F073
,
U+F075
,
U+F077
,
U+F079
,
U+F080
,
U+F083
,
U+F087
,
U+F088
U+F08A
,
U+F090
,
U+F091
,
U+F09F
,
U+F0B2
,
U+F0BC
,
U+F0BF
,
U+F0C2
U+F0D2
,
U+F0D4
,
U+F0E1
,
U+F0E6
,
U+F0E7
,
U+F0EC
,
U+F0FB
如果你去Unicode Charts page and enter 'F020' as the code, it gives you UE000.pdf下载,里面写着:
Private Use Area
Range: E000-F8FF
The Private Use Area does not contain any character assignments, consequently no character code charts or names lists are
provided for this area.
这意味着 Anu Script 软件正在使用没有国际公认含义的 Unicode 点 — 根据定义,BMP PUA 是 'private use' 并且使用 PUA 共享数据的各方必须同意代码点的含义以及如何显示它们。他们只使用理解约定的软件。您不能使用这些代码点,除非软件能够理解 Anu Script Software 的功能。
浏览器只有知道相关字体的位置才能理解这些代码点,这涉及到复杂的细节并且可能是特定于平台的。 (我不知道从哪里开始!)
泰卢固语的标准 Unicode 范围是 U+0C00..U+0C7F。
Telugu
Range: 0C00–0C7F
您最好的办法可能是分析 Anu Script Software 使用的代码点与泰卢固语的 Unicode 标准范围之间的异同,然后使用 Unicode 标准代码。您可能需要了解结合口音和泰卢固语的其他各个方面。
我完全不懂泰卢固语,所以下面的内容可能不准确,但我认为它或多或少可以理解 Anu Script 软件输出中的内容:
UTF-8 bytes PUA Telugu Glyph
0xEF 0x82 0x87 = U+F087 ==> U+0C08 ఈ
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x82 0x80 = U+F080 ==> U+0C06 ఆ
0xEF 0x81 0x9C = U+F05C ==> U+0C32 ల
0xEF 0x81 0xAA = U+F06A \
0xEF 0x83 0xA1 = U+F0E1 ==> U+0C2F య (three code points for one character)
0xEF 0x81 0x94 = U+F054 /
0xEF 0x80 0xAB = U+F02B ==> U+0C66 ౦
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x83 0x82 = U+F0C2
0xEF 0x81 0xB3 = U+F073
0xEF 0x80 0xAB = U+F02B
0xEF 0x80 0xA6 = U+F026
0xEF 0x82 0x83 = U+F083
0xEF 0x81 0x94 = U+F054
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x8A = U+F08A
0xEF 0x81 0x98 = U+F058
0xEF 0x83 0xA6 = U+F0E6
0xEF 0x81 0xB5 = U+F075
0xEF 0x82 0xB2 = U+F0B2
0xEF 0x83 0x92 = U+F0D2
0xEF 0x81 0x9C = U+F05C
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x83 0xA7 = U+F0E7 ==> U+0C46 U+0C66 ౦ె (Note 1)
0xEF 0x82 0xBF = U+F0BF
0xEF 0x83 0xAC = U+F0EC
0xEF 0x83 0x94 = U+F0D4
0xEF 0x83 0xA1 = U+F0E1
0xEF 0x80 0xAB = U+F02B
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x81 0xB3 = U+F073
0xEF 0x82 0x90 = U+F090
0xEF 0x83 0xA7 = U+F0E7
0xEF 0x81 0xB7 = U+F077
0xEF 0x82 0x9F = U+F09F
0xEF 0x82 0xBC = U+F0BC
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x80 0xBC = U+F03C
0xEF 0x83 0xBB = U+F0FB
0xEF 0x81 0xB9 = U+F079
0xEF 0x82 0x90 = U+F090
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x91 = U+F091
0xEF 0x81 0xAA = U+F06A
0xEF 0x83 0xA1 = U+F0E1
0xEF 0x81 0x94 = U+F054
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x8A = U+F08A
0xEF 0x81 0xB3 = U+F073
0xEF 0x82 0x90 = U+F090
0xEF 0x82 0x88 = U+F088
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x91 = U+F091
0xEF 0x81 0xAA = U+F06A \
0xEF 0x83 0xA1 = U+F0E1 ==> U+0C2F య
0xEF 0x81 0x94 = U+F054 /
注意 1:TELUGU VOWEL SIGN E U+0C46 应该与 TELUGU DIGIT ZERO U+0C66 组合——如果我已经正确识别字符,这似乎不太可能。我将停止在这里尝试;我通过将您在图像中显示的内容与 Unicode 图表页面进行匹配来识别一些形状,但我对映射到 PUA 代码点没有信心。
您应该能够从提供 Anu Script 软件的人员那里获得适当的信息。
关于 copy/pasted 到浏览器
时丢失字符的印度语言脚本我需要了解字符类型以及它们到不同支持格式的转换。我的问题是—— 我有使用 Anu Script 软件和 Apple 键盘输入的文本。 使用 Anu 输入的文本不能用作任何类型的浏览器或 Web WhatsApp 的输入。
谁能解决这个问题
复制和粘贴的文本显示如下:-
真实文本如下图所示:-
此图片显示的是印度的一种语言,使用 Anu Script 软件输入
复制并粘贴到问题中的字符代码是 Unicode BMP(基本多语言平面)专用区 (PUA) 中的 Unicode 代码点。不同点是:
U+F020
,U+F026
,U+F02B
,U+F03C
,U+F054
,U+F058
,U+F05C
,U+F06A
U+F073
,U+F075
,U+F077
,U+F079
,U+F080
,U+F083
,U+F087
,U+F088
U+F08A
,U+F090
,U+F091
,U+F09F
,U+F0B2
,U+F0BC
,U+F0BF
,U+F0C2
U+F0D2
,U+F0D4
,U+F0E1
,U+F0E6
,U+F0E7
,U+F0EC
,U+F0FB
如果你去Unicode Charts page and enter 'F020' as the code, it gives you UE000.pdf下载,里面写着:
Private Use Area
Range: E000-F8FF
The Private Use Area does not contain any character assignments, consequently no character code charts or names lists are provided for this area.
这意味着 Anu Script 软件正在使用没有国际公认含义的 Unicode 点 — 根据定义,BMP PUA 是 'private use' 并且使用 PUA 共享数据的各方必须同意代码点的含义以及如何显示它们。他们只使用理解约定的软件。您不能使用这些代码点,除非软件能够理解 Anu Script Software 的功能。
浏览器只有知道相关字体的位置才能理解这些代码点,这涉及到复杂的细节并且可能是特定于平台的。 (我不知道从哪里开始!)
泰卢固语的标准 Unicode 范围是 U+0C00..U+0C7F。
Telugu
Range: 0C00–0C7F
您最好的办法可能是分析 Anu Script Software 使用的代码点与泰卢固语的 Unicode 标准范围之间的异同,然后使用 Unicode 标准代码。您可能需要了解结合口音和泰卢固语的其他各个方面。
我完全不懂泰卢固语,所以下面的内容可能不准确,但我认为它或多或少可以理解 Anu Script 软件输出中的内容:
UTF-8 bytes PUA Telugu Glyph
0xEF 0x82 0x87 = U+F087 ==> U+0C08 ఈ
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x82 0x80 = U+F080 ==> U+0C06 ఆ
0xEF 0x81 0x9C = U+F05C ==> U+0C32 ల
0xEF 0x81 0xAA = U+F06A \
0xEF 0x83 0xA1 = U+F0E1 ==> U+0C2F య (three code points for one character)
0xEF 0x81 0x94 = U+F054 /
0xEF 0x80 0xAB = U+F02B ==> U+0C66 ౦
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x83 0x82 = U+F0C2
0xEF 0x81 0xB3 = U+F073
0xEF 0x80 0xAB = U+F02B
0xEF 0x80 0xA6 = U+F026
0xEF 0x82 0x83 = U+F083
0xEF 0x81 0x94 = U+F054
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x8A = U+F08A
0xEF 0x81 0x98 = U+F058
0xEF 0x83 0xA6 = U+F0E6
0xEF 0x81 0xB5 = U+F075
0xEF 0x82 0xB2 = U+F0B2
0xEF 0x83 0x92 = U+F0D2
0xEF 0x81 0x9C = U+F05C
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x83 0xA7 = U+F0E7 ==> U+0C46 U+0C66 ౦ె (Note 1)
0xEF 0x82 0xBF = U+F0BF
0xEF 0x83 0xAC = U+F0EC
0xEF 0x83 0x94 = U+F0D4
0xEF 0x83 0xA1 = U+F0E1
0xEF 0x80 0xAB = U+F02B
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x81 0xB3 = U+F073
0xEF 0x82 0x90 = U+F090
0xEF 0x83 0xA7 = U+F0E7
0xEF 0x81 0xB7 = U+F077
0xEF 0x82 0x9F = U+F09F
0xEF 0x82 0xBC = U+F0BC
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x80 0xBC = U+F03C
0xEF 0x83 0xBB = U+F0FB
0xEF 0x81 0xB9 = U+F079
0xEF 0x82 0x90 = U+F090
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x91 = U+F091
0xEF 0x81 0xAA = U+F06A
0xEF 0x83 0xA1 = U+F0E1
0xEF 0x81 0x94 = U+F054
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x8A = U+F08A
0xEF 0x81 0xB3 = U+F073
0xEF 0x82 0x90 = U+F090
0xEF 0x82 0x88 = U+F088
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x91 = U+F091
0xEF 0x81 0xAA = U+F06A \
0xEF 0x83 0xA1 = U+F0E1 ==> U+0C2F య
0xEF 0x81 0x94 = U+F054 /
注意 1:TELUGU VOWEL SIGN E U+0C46 应该与 TELUGU DIGIT ZERO U+0C66 组合——如果我已经正确识别字符,这似乎不太可能。我将停止在这里尝试;我通过将您在图像中显示的内容与 Unicode 图表页面进行匹配来识别一些形状,但我对映射到 PUA 代码点没有信心。
您应该能够从提供 Anu Script 软件的人员那里获得适当的信息。