关于 C++ 中完整 unicode 的基本问题
Basic issue regarding full unicode in C++
在 C++ 中使用完整 unicode 的正确工具是什么?
比如我试过:
int main()
{
std::wstring name;
std::wcout << "Enter unicode: " << std::endl;
std::getline(std::wcin, name);
std::wcout << name << std::endl;
return 0;
}
输入字符时,它不会像我预期的那样工作:或其他不在 Unicode BMP 中的字符。我打印出一个空行。
普通字符串适用于最多 16 位的任何代码点,wstring、wcin、wcout 不能像我预期的那样工作,一些谷歌搜索没有帮助我看出这可能是错误的。
编辑(文件 I/O 也有问题!):
我想知道这是否与控制台 I/O 本身有关,并想对文件 I/O 进行同样的实验。我查看了 api 并想出了这个编译和运行良好的:
int main()
{
std::string filename;
std::cout << "Enter file to append to: " << std::endl;
std::getline(std::cin, filename);
std::wifstream file;
std::wstringstream buff;
file.open(filename);
std::wstring txt;
buff << file.rdbuf();
file.close();
txt = buff.str();
std::wcout << txt << std::endl;
return 0;
}
但是当我将它指向我的文件时,它主要包含 lorem ipsum 和一些非 BMP 字符,它会将文件打印到第一个非 BMP 字符,然后提前停止。现代 C++ 中的 Unicode 设施真的可以这么糟糕吗?
我确定有人知道我在这里缺少的一些基本知识...
您处于 C++ unicode 的灰色地带。 Unicode 最初是从 7 位 ASCII 字符或多字节字符到普通 16 位字符的扩展开始的,后来成为 BMP。这些 16 位字符被 Java 等语言和 Windows 等系统原生采用。 C 和 C++ 在标准观点上更加保守,决定 wchar_t
将是一个 实现依赖 宽字符集,可以是 16 位或 32 位宽(甚至更多。 ..) 取决于要求。好的一面是它是可扩展的,不好的一面是当 wchar_t 只有 16 位时,它从未明确表示非 BMP unicode 字符应该如何表示。
然后创建 UTF-16 以允许 标准 表示那些非 BMP 字符,缺点是它们需要 2 个 16 位字符,并且 std::char_traits<wchar_t>::length
如果其中一些出现在 wstring 中,将再次出错。
这就是为什么大多数 C++ 实现选择 wchar_t
basic IO 只能正确处理 length
到 return 的 BMP unicode 字符的原因真实的字符数。
C++-ish 方法是在需要完整的 unicode 支持时使用基于 char32_t
的字符串。事实上 wstring_t
和 wchar_t
(文字的前缀 L)是依赖于实现的类型,并且从 C++11 开始,您还有 char16_t
和 u16string
(前缀 u)明确使用 UTF-16,或 char32_t
和 u32string
(前缀 U)通过 UTF-32 获得完整的 unicode 支持。在 u16string 中存储 BMP 之外的字符的问题是,您丢失了 属性 字符串大小 == 字符数 ,这是使用宽字符的关键原因而不是多字节字符。
u32string 的一个问题是 io 库仍然没有针对 32 位字符的直接专门化,但是正如转换器所具有的那样,当您处理带有 std::basic_fstream<char32_t>
的文件时,您可能可以轻松地使用它们(未经测试但根据标准应该工作)。但是您将没有 cin
、cout
和 cerr
的标准流,并且可能必须处理来自 string
的 native ] 或 u16string
,然后在 C++14 中引入的标准转换器的帮助下转换 u32string
中的所有内容,如果仅使用 C++11,则使用困难的方法。
真正黑暗的一面是,由于该原生部分目前依赖于 OS,您将无法设置一种完全可移植的方式来处理完整的 unicode - 或者至少我知道 none.
在 C++ 中使用完整 unicode 的正确工具是什么?
比如我试过:
int main()
{
std::wstring name;
std::wcout << "Enter unicode: " << std::endl;
std::getline(std::wcin, name);
std::wcout << name << std::endl;
return 0;
}
输入字符时,它不会像我预期的那样工作:或其他不在 Unicode BMP 中的字符。我打印出一个空行。
普通字符串适用于最多 16 位的任何代码点,wstring、wcin、wcout 不能像我预期的那样工作,一些谷歌搜索没有帮助我看出这可能是错误的。
编辑(文件 I/O 也有问题!):
我想知道这是否与控制台 I/O 本身有关,并想对文件 I/O 进行同样的实验。我查看了 api 并想出了这个编译和运行良好的:
int main()
{
std::string filename;
std::cout << "Enter file to append to: " << std::endl;
std::getline(std::cin, filename);
std::wifstream file;
std::wstringstream buff;
file.open(filename);
std::wstring txt;
buff << file.rdbuf();
file.close();
txt = buff.str();
std::wcout << txt << std::endl;
return 0;
}
但是当我将它指向我的文件时,它主要包含 lorem ipsum 和一些非 BMP 字符,它会将文件打印到第一个非 BMP 字符,然后提前停止。现代 C++ 中的 Unicode 设施真的可以这么糟糕吗?
我确定有人知道我在这里缺少的一些基本知识...
您处于 C++ unicode 的灰色地带。 Unicode 最初是从 7 位 ASCII 字符或多字节字符到普通 16 位字符的扩展开始的,后来成为 BMP。这些 16 位字符被 Java 等语言和 Windows 等系统原生采用。 C 和 C++ 在标准观点上更加保守,决定 wchar_t
将是一个 实现依赖 宽字符集,可以是 16 位或 32 位宽(甚至更多。 ..) 取决于要求。好的一面是它是可扩展的,不好的一面是当 wchar_t 只有 16 位时,它从未明确表示非 BMP unicode 字符应该如何表示。
UTF-16 以允许 标准 表示那些非 BMP 字符,缺点是它们需要 2 个 16 位字符,并且 std::char_traits<wchar_t>::length
如果其中一些出现在 wstring 中,将再次出错。
这就是为什么大多数 C++ 实现选择 wchar_t
basic IO 只能正确处理 length
到 return 的 BMP unicode 字符的原因真实的字符数。
C++-ish 方法是在需要完整的 unicode 支持时使用基于 char32_t
的字符串。事实上 wstring_t
和 wchar_t
(文字的前缀 L)是依赖于实现的类型,并且从 C++11 开始,您还有 char16_t
和 u16string
(前缀 u)明确使用 UTF-16,或 char32_t
和 u32string
(前缀 U)通过 UTF-32 获得完整的 unicode 支持。在 u16string 中存储 BMP 之外的字符的问题是,您丢失了 属性 字符串大小 == 字符数 ,这是使用宽字符的关键原因而不是多字节字符。
u32string 的一个问题是 io 库仍然没有针对 32 位字符的直接专门化,但是正如转换器所具有的那样,当您处理带有 std::basic_fstream<char32_t>
的文件时,您可能可以轻松地使用它们(未经测试但根据标准应该工作)。但是您将没有 cin
、cout
和 cerr
的标准流,并且可能必须处理来自 string
的 native ] 或 u16string
,然后在 C++14 中引入的标准转换器的帮助下转换 u32string
中的所有内容,如果仅使用 C++11,则使用困难的方法。
真正黑暗的一面是,由于该原生部分目前依赖于 OS,您将无法设置一种完全可移植的方式来处理完整的 unicode - 或者至少我知道 none.