如何检测 C++ Windows 中的非 ascii 字符?

how to detect non-ascii characters in C++ Windows?

我只是想在 Windows 上检测我的 C++ 程序中的非 ascii 字符。 使用 isascii() 或 :

bool is_printable_ascii = (ch & ~0x7f) == 0 && 
                          (isprint() || isspace()) ;

不起作用,因为在 getchar() 执行操作之前或期间,非 ascii 字符被映射到 ascii 字符。例如,如果我有这样的代码:

#include <iostream>
using namespace std;
int main()
{
    int c;
    c = getchar();
    cout << isascii(c) << endl;
    cout << c << endl;
    printf("0x%x\n", c);
    cout << (char)c;
    return 0;
}

然后输入a(因为我现在很开心),输出是

1
63
0x3f
?

此外,如果我向程序提供一些东西(超出扩展的 ascii 范围(代码页 437)),例如“Ĥ”,我得到的输出是

1
72
0x48
H

这适用于类似的输入,例如 Ĭ 或 ō(转到 I 和 o)。所以这似乎是算法,而不仅仅是 mojibake 之类的。使用类似

的程序快速检查 python(通过同一终端)
i = input()
print(ord(i))

给了我预期的实际十六进制代码,而不是映射的 ascii 代码(所以它不是代码页或终端(?))。这让我相信 getchar() 或 C++ 编译器(在 VS 编译器和 g++ 上测试)正在做一些时髦的事情。我也尝试过使用 cin 和许多其他替代方法。请注意,我已经在 Linux 上试过了,但我无法重现这个问题,这让我倾向于相信它与 Windows (10 pro) 有关。谁能解释一下这是怎么回事?

尝试将 getchar() 替换为 getwchar(); 我认为你是对的,这是一个仅 Windows 的问题。

我认为问题在于 getchar(); 期望输入为 char 类型,它是 8 位且仅支持 ASCII。 getwchar(); 支持允许其他文本编码的 wchar_t 类型。 "" 不是 ASCII,从这个页面: https://docs.microsoft.com/en-us/windows/win32/learnwin32/working-with-strings ,似乎 Windows 在 UTF-16 中编码这样的扩展字符。我在查找 utf-16 表情符号 table 时遇到了问题,但我猜 utf-16“”中的一个字节是 0x39,这就是为什么你看到它被打印出来的原因。

好的,我已经解决了这个问题。我不知道 翻译模式

_setmode(_fileno(stdin), _O_WTEXT);

是解决方案。下面的 link 基本上解释了存在翻译模式,我认为阶段 5(字符集映射)解释了发生的事情。 https://en.cppreference.com/w/cpp/language/translation_phases