如何在 Turbo C++ 中使用 Unicode？

Question

如何在 Turbo C++ 中使用 Unicode 符号？

我特别想要上下标符号。

我必须使用过时的 Turbo C++，因为这是我的学校提供的，我必须将其用于我的项目。

Answer 1

如前所述，Turbo C++ 不会让您直接访问 Unicode。它可能太旧了，甚至无法生成可以使用系统库 (DLL) 的代码，因此 - 即使通过手动重新创建头文件，您也无法调用 wprintf 这可能即使在神秘的 cmd 终端上也能输出正确的 Unicode 微软 Windows 直到今天。

但是，cmd 终端中使用的默认字符编码支持一些非 ASCII 字符 - 这完全取决于您 OS 的语言（区域设置）配置。（例如，对于西欧语言，如果您的 Windows 是英语，则通常是 "cp-852" - although it can be CP 850。

None 这些遗留 8 位字符映射编码将包括所有十位数字作为上标 - 但您可能有一些可用（例如，CP 850 功能“¹,²,³”） .

因此，您可以查看终端代码页，并在维基百科上查看它们的代码 - 您可以在 Windows 终端中使用 chcp 命令检查和更改当前代码页。如果您的 Windows 版本支持 UTF-8，它涵盖了所有可打印的 Unicode 字符，您必须在终端中输入 chcp 65001。（我不知道哪个 Windows 版本支持它，也不知道你使用的是哪个版本。）

一旦你设法做到这一点，你所需要的就是打印 UTF-8 中上标数字的字节序列，使用字符串中字符的“\xHH”编码（我不确定如果 Turbo C++ 允许它。否则，`printf ("%c%c", 0xHH, 0xHH) 将起作用。)

为方便起见，我附上了上标的代码点和 UTF-8 编码：

0x00B2: SUPERSCRIPT TWO - ² - utf-8 seq: b'\xc2\xb2'
0x00B3: SUPERSCRIPT THREE - ³ - utf-8 seq: b'\xc2\xb3'
0x00B9: SUPERSCRIPT ONE - ¹ - utf-8 seq: b'\xc2\xb9'
0x0670: ARABIC LETTER SUPERSCRIPT ALEF - ٰ - utf-8 seq: b'\xd9\xb0'
0x0711: SYRIAC LETTER SUPERSCRIPT ALAPH - ܑ - utf-8 seq: b'\xdc\x91'
0x2070: SUPERSCRIPT ZERO - ⁰ - utf-8 seq: b'\xe2\x81\xb0'
0x2071: SUPERSCRIPT LATIN SMALL LETTER I - ⁱ - utf-8 seq: b'\xe2\x81\xb1'
0x2074: SUPERSCRIPT FOUR - ⁴ - utf-8 seq: b'\xe2\x81\xb4'
0x2075: SUPERSCRIPT FIVE - ⁵ - utf-8 seq: b'\xe2\x81\xb5'
0x2076: SUPERSCRIPT SIX - ⁶ - utf-8 seq: b'\xe2\x81\xb6'
0x2077: SUPERSCRIPT SEVEN - ⁷ - utf-8 seq: b'\xe2\x81\xb7'
0x2078: SUPERSCRIPT EIGHT - ⁸ - utf-8 seq: b'\xe2\x81\xb8'
0x2079: SUPERSCRIPT NINE - ⁹ - utf-8 seq: b'\xe2\x81\xb9'
0x207A: SUPERSCRIPT PLUS SIGN - ⁺ - utf-8 seq: b'\xe2\x81\xba'
0x207B: SUPERSCRIPT MINUS - ⁻ - utf-8 seq: b'\xe2\x81\xbb'
0x207C: SUPERSCRIPT EQUALS SIGN - ⁼ - utf-8 seq: b'\xe2\x81\xbc'
0x207D: SUPERSCRIPT LEFT PARENTHESIS - ⁽ - utf-8 seq: b'\xe2\x81\xbd'
0x207E: SUPERSCRIPT RIGHT PARENTHESIS - ⁾ - utf-8 seq: b'\xe2\x81\xbe'
0x207F: SUPERSCRIPT LATIN SMALL LETTER N - ⁿ - utf-8 seq: b'\xe2\x81\xbf'
0xFC5B: ARABIC LIGATURE THAL WITH SUPERSCRIPT ALEF ISOLATED FORM - ﱛ - utf-8 seq: b'\xef\xb1\x9b'
0xFC5C: ARABIC LIGATURE REH WITH SUPERSCRIPT ALEF ISOLATED FORM - ﱜ - utf-8 seq: b'\xef\xb1\x9c'
0xFC5D: ARABIC LIGATURE ALEF MAKSURA WITH SUPERSCRIPT ALEF ISOLATED FORM - ﱝ - utf-8 seq: b'\xef\xb1\x9d'
0xFC63: ARABIC LIGATURE SHADDA WITH SUPERSCRIPT ALEF ISOLATED FORM - ﱣ - utf-8 seq: b'\xef\xb1\xa3'
0xFC90: ARABIC LIGATURE ALEF MAKSURA WITH SUPERSCRIPT ALEF FINAL FORM - ﲐ - utf-8 seq: b'\xef\xb2\x90'
0xFCD9: ARABIC LIGATURE HEH WITH SUPERSCRIPT ALEF INITIAL FORM - ﳙ - utf-8 seq: b'\xef\xb3\x99'

（这是在交互模式下使用以下 Python 片段生成的：）

import unicodedata
for i in range(0, 0x10ffff):
    char = chr(i)
    try:
        name = unicodedata.name(char)
    except ValueError:
        pass
    if "SUPERSCRIPT" not in name:
        continue
    print(f"0x{i:04X}: {name} - {char} - utf-8 seq: {char.encode('utf-8')}")

Answer 2

旧 Turbo C++（不是 BDS2006 Turbo C++）用于 MS-DOS 16 位目标，所以它根本不支持 Unicode，也不支持 TTF 字体等。所以为了让 Unicode 工作，你有两个选择：

自己实现 Unicode

因此您需要呈现 Unicode 文本。在图形模式下很简单。只需使用“完整”的 Unicode 字体，例如：
- GNU_Unifont
IIRC 它是光栅的，因此很容易解码和渲染（您甚至可以在较新的 OS 中从中创建一个大位图，并在 MS-DOS 中将其用作字体）。对于图形模式下的渲染，您可以使用直接像素访问 (VGA/VESA)。在文本模式下，这要困难得多，因为您需要用您实际使用的字符更新 EGA/VGA 字体。但是屏幕上实际呈现的不同字符的数量限制为每种字体 256 个。欲了解更多信息，请参阅：
- Graphics rendering in C++
当然，在 MS-D 下支持整个 Unicode 是一个问题OS，因为即使在小分辨率下，完整字体通常也有 12-64 MB 大，因此您需要有足够的 XMS 内存（因为你不再适合 640 KB 或 1 MB 模型）并实现快速 paging/access 以使用字符以便快速可用...另一种选择是使用 32 位保护模式，你可以获得 32 位线性内存访问（但是你没有更多的 MS-DOS 支持并且需要自己做所有 OS 的事情，但是像 D[=59 这样的扩展器=]4GW 可以为您做一些...)

您可以使用一种快捷方式来避免内存管理。您可以创建一个 RAM disk 并将您的原始字体图像作为文件存储在 RAM 磁盘中。对它的文件访问应该很快（比访问 HDD 快得多）...所以在应用程序开始时，将字体从 HDD 复制到 RAM 磁盘位置，然后只使用它...因此，不需要 XMS没有了。
将 Unicode 字符串转换为扩展 ASCII

使用支持标准 ASCII 之外的特殊字符的字符 table。有 MS-DOS 实用程序（支持 latin1、2、kamenicky 等）提供扩展字体和键盘处理（在选定的代码页内）。

因此，您需要对要支持的所有字符进行转换 table，并在 UTF-8、UTF-16 和 ASCII + 扩展字符之间进行映射。但是，这样它只能支持128个扩展字符。

如何在 Turbo C++ 中使用 Unicode？

How can I use Unicode in Turbo C++?

c++

unicode

superscript

turbo-c++

subscript