如何检测 C++ Windows 中的非 ascii 字符?
how to detect non-ascii characters in C++ Windows?
我只是想在 Windows 上检测我的 C++ 程序中的非 ascii 字符。
使用 isascii()
或 :
bool is_printable_ascii = (ch & ~0x7f) == 0 &&
(isprint() || isspace()) ;
不起作用,因为在 getchar()
执行操作之前或期间,非 ascii 字符被映射到 ascii 字符。例如,如果我有这样的代码:
#include <iostream>
using namespace std;
int main()
{
int c;
c = getchar();
cout << isascii(c) << endl;
cout << c << endl;
printf("0x%x\n", c);
cout << (char)c;
return 0;
}
然后输入a(因为我现在很开心),输出是
1
63
0x3f
?
此外,如果我向程序提供一些东西(超出扩展的 ascii 范围(代码页 437)),例如“Ĥ”,我得到的输出是
1
72
0x48
H
这适用于类似的输入,例如 Ĭ 或 ō(转到 I 和 o)。所以这似乎是算法,而不仅仅是 mojibake 之类的。使用类似
的程序快速检查 python(通过同一终端)
i = input()
print(ord(i))
给了我预期的实际十六进制代码,而不是映射的 ascii 代码(所以它不是代码页或终端(?))。这让我相信 getchar()
或 C++ 编译器(在 VS 编译器和 g++ 上测试)正在做一些时髦的事情。我也尝试过使用 cin
和许多其他替代方法。请注意,我已经在 Linux 上试过了,但我无法重现这个问题,这让我倾向于相信它与 Windows (10 pro) 有关。谁能解释一下这是怎么回事?
尝试将 getchar()
替换为 getwchar();
我认为你是对的,这是一个仅 Windows 的问题。
我认为问题在于 getchar();
期望输入为 char
类型,它是 8 位且仅支持 ASCII。 getwchar();
支持允许其他文本编码的 wchar_t
类型。 "" 不是 ASCII,从这个页面: https://docs.microsoft.com/en-us/windows/win32/learnwin32/working-with-strings ,似乎 Windows 在 UTF-16 中编码这样的扩展字符。我在查找 utf-16 表情符号 table 时遇到了问题,但我猜 utf-16“”中的一个字节是 0x39,这就是为什么你看到它被打印出来的原因。
好的,我已经解决了这个问题。我不知道 翻译模式。
_setmode(_fileno(stdin), _O_WTEXT);
是解决方案。下面的 link 基本上解释了存在翻译模式,我认为阶段 5(字符集映射)解释了发生的事情。
https://en.cppreference.com/w/cpp/language/translation_phases
我只是想在 Windows 上检测我的 C++ 程序中的非 ascii 字符。
使用 isascii()
或 :
bool is_printable_ascii = (ch & ~0x7f) == 0 &&
(isprint() || isspace()) ;
不起作用,因为在 getchar()
执行操作之前或期间,非 ascii 字符被映射到 ascii 字符。例如,如果我有这样的代码:
#include <iostream>
using namespace std;
int main()
{
int c;
c = getchar();
cout << isascii(c) << endl;
cout << c << endl;
printf("0x%x\n", c);
cout << (char)c;
return 0;
}
然后输入a(因为我现在很开心),输出是
1
63
0x3f
?
此外,如果我向程序提供一些东西(超出扩展的 ascii 范围(代码页 437)),例如“Ĥ”,我得到的输出是
1
72
0x48
H
这适用于类似的输入,例如 Ĭ 或 ō(转到 I 和 o)。所以这似乎是算法,而不仅仅是 mojibake 之类的。使用类似
的程序快速检查 python(通过同一终端)i = input()
print(ord(i))
给了我预期的实际十六进制代码,而不是映射的 ascii 代码(所以它不是代码页或终端(?))。这让我相信 getchar()
或 C++ 编译器(在 VS 编译器和 g++ 上测试)正在做一些时髦的事情。我也尝试过使用 cin
和许多其他替代方法。请注意,我已经在 Linux 上试过了,但我无法重现这个问题,这让我倾向于相信它与 Windows (10 pro) 有关。谁能解释一下这是怎么回事?
尝试将 getchar()
替换为 getwchar();
我认为你是对的,这是一个仅 Windows 的问题。
我认为问题在于 getchar();
期望输入为 char
类型,它是 8 位且仅支持 ASCII。 getwchar();
支持允许其他文本编码的 wchar_t
类型。 "" 不是 ASCII,从这个页面: https://docs.microsoft.com/en-us/windows/win32/learnwin32/working-with-strings ,似乎 Windows 在 UTF-16 中编码这样的扩展字符。我在查找 utf-16 表情符号 table 时遇到了问题,但我猜 utf-16“”中的一个字节是 0x39,这就是为什么你看到它被打印出来的原因。
好的,我已经解决了这个问题。我不知道 翻译模式。
_setmode(_fileno(stdin), _O_WTEXT);
是解决方案。下面的 link 基本上解释了存在翻译模式,我认为阶段 5(字符集映射)解释了发生的事情。 https://en.cppreference.com/w/cpp/language/translation_phases