为什么在将窄字符串转换为宽字符串时用 0xFF 屏蔽字符?
Why mask a char with 0xFF when converting narrow string to wide string?
考虑这个功能 convert narrow strings to wide strings:
std::wstring convert(const std::string& input)
{
try
{
std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> converter;
return converter.from_bytes(input);
}
catch(std::range_error& e)
{
std::size_t length = input.length();
std::wstring result;
result.reserve(length);
for(std::size_t i = 0; i < length; i++)
{
result.push_back(input[i] & 0xFF);
}
return result;
}
}
我很难理解后备路径中对这个表达式的需求:
result.push_back(input[i] & 0xFF);
为什么字符串中的每个字符都被 0xFF (0b11111111) 屏蔽?
看起来在转换失败时代码会尝试自己的转换,只需将 string
复制到 wstring
char for char.
& 0FF
意味着 "clean" 任何大于 255 的值都适合(扩展的)ASCII table。这是一个 no-op 但是因为 input[i]
returns char
和 sizeof(char) == 1
这意味着 255 无论如何都是最大值(在 CHAR_BIT == 8
和 char == unsigned char
).
等同于使用构造函数立即复制它们:
std::wstring result(input.begin(), input.end());
使用 0xFF
进行屏蔽可将任何负值减少到 0-255 范围内。
这是合理的,例如,您平台的 char
是表示 ISO-8859-1 字符的 8 位带符号类型,而您的 wchar_t
表示 UCS-2、UTF- 16 或 UCS-4。
如果没有此更正(或类似的东西,例如转换为 unsigned char
或 std::byte
),您会发现字符在提升为更宽的类型时为 sign-extended。
示例:0xa9(Unicode 和 Latin-1 中的 ©
,带符号的 8 位中的 -87)将变为 \uffa9
而不是 \u00a9
。
我认为将 char
转换为 unsigned char
更清楚 - 这适用于任何大小的字符,并且可以更好地传达意图。您可以直接更改该表达式,或创建一个 codecvt
子类,为您正在做的事情命名。
下面是如何编写和使用最小 codecvt
(仅用于窄→宽转换):
#include <codecvt>
#include <locale>
#include <string>
class codecvt_latin1 : public std::codecvt<wchar_t,char,std::mbstate_t>
{
protected:
virtual result do_in(std::mbstate_t&,
const char* from,
const char* from_end,
const char*& from_next,
wchar_t* to,
wchar_t* to_end,
wchar_t*& to_next) const override
{
while (from != from_end && to != to_end)
*to++ = (unsigned char)*from++;
from_next = from;
to_next = to;
return result::ok;
}
};
std::wstring convert(const std::string& input)
{
using codecvt_utf8 = std::codecvt_utf8<wchar_t>;
try {
return std::wstring_convert<codecvt_utf8>().from_bytes(input);
} catch (std::range_error&) {
return std::wstring_convert<codecvt_latin1>{}.from_bytes(input);
}
}
#include <iostream>
int main()
{
std::locale::global(std::locale{""});
// UTF-8: £© おはよう
std::wcout << convert(u8"\xc2\xa3\xc2\xa9 おはよう") << std::endl;
// Latin-1: 壩
std::wcout << convert("\xc2\xa3\xa9") << std::endl;
}
输出:
£© おはよう
壩
考虑这个功能 convert narrow strings to wide strings:
std::wstring convert(const std::string& input)
{
try
{
std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> converter;
return converter.from_bytes(input);
}
catch(std::range_error& e)
{
std::size_t length = input.length();
std::wstring result;
result.reserve(length);
for(std::size_t i = 0; i < length; i++)
{
result.push_back(input[i] & 0xFF);
}
return result;
}
}
我很难理解后备路径中对这个表达式的需求:
result.push_back(input[i] & 0xFF);
为什么字符串中的每个字符都被 0xFF (0b11111111) 屏蔽?
看起来在转换失败时代码会尝试自己的转换,只需将 string
复制到 wstring
char for char.
& 0FF
意味着 "clean" 任何大于 255 的值都适合(扩展的)ASCII table。这是一个 no-op 但是因为 input[i]
returns char
和 sizeof(char) == 1
这意味着 255 无论如何都是最大值(在 CHAR_BIT == 8
和 char == unsigned char
).
等同于使用构造函数立即复制它们:
std::wstring result(input.begin(), input.end());
使用 0xFF
进行屏蔽可将任何负值减少到 0-255 范围内。
这是合理的,例如,您平台的 char
是表示 ISO-8859-1 字符的 8 位带符号类型,而您的 wchar_t
表示 UCS-2、UTF- 16 或 UCS-4。
如果没有此更正(或类似的东西,例如转换为 unsigned char
或 std::byte
),您会发现字符在提升为更宽的类型时为 sign-extended。
示例:0xa9(Unicode 和 Latin-1 中的 ©
,带符号的 8 位中的 -87)将变为 \uffa9
而不是 \u00a9
。
我认为将 char
转换为 unsigned char
更清楚 - 这适用于任何大小的字符,并且可以更好地传达意图。您可以直接更改该表达式,或创建一个 codecvt
子类,为您正在做的事情命名。
下面是如何编写和使用最小 codecvt
(仅用于窄→宽转换):
#include <codecvt>
#include <locale>
#include <string>
class codecvt_latin1 : public std::codecvt<wchar_t,char,std::mbstate_t>
{
protected:
virtual result do_in(std::mbstate_t&,
const char* from,
const char* from_end,
const char*& from_next,
wchar_t* to,
wchar_t* to_end,
wchar_t*& to_next) const override
{
while (from != from_end && to != to_end)
*to++ = (unsigned char)*from++;
from_next = from;
to_next = to;
return result::ok;
}
};
std::wstring convert(const std::string& input)
{
using codecvt_utf8 = std::codecvt_utf8<wchar_t>;
try {
return std::wstring_convert<codecvt_utf8>().from_bytes(input);
} catch (std::range_error&) {
return std::wstring_convert<codecvt_latin1>{}.from_bytes(input);
}
}
#include <iostream>
int main()
{
std::locale::global(std::locale{""});
// UTF-8: £© おはよう
std::wcout << convert(u8"\xc2\xa3\xc2\xa9 おはよう") << std::endl;
// Latin-1: 壩
std::wcout << convert("\xc2\xa3\xa9") << std::endl;
}
输出:
£© おはよう
壩