为什么在将窄字符串转换为宽字符串时用 0xFF 屏蔽字符？

Question

考虑这个功能 convert narrow strings to wide strings:

std::wstring convert(const std::string& input)
{
    try
    {
        std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> converter;
        return converter.from_bytes(input);
    }
    catch(std::range_error& e)
    {
        std::size_t length = input.length();
        std::wstring result;
        result.reserve(length);
        for(std::size_t i = 0; i < length; i++)
        {
            result.push_back(input[i] & 0xFF);
        }
        return result;
    }
}

我很难理解后备路径中对这个表达式的需求：

result.push_back(input[i] & 0xFF);

为什么字符串中的每个字符都被 0xFF (0b11111111) 屏蔽？

Answer 1

看起来在转换失败时代码会尝试自己的转换，只需将 string 复制到 wstring char for char.

& 0FF 意味着 "clean" 任何大于 255 的值都适合（扩展的）ASCII table。这是一个 no-op 但是因为 input[i] returns char 和 sizeof(char) == 1 这意味着 255 无论如何都是最大值（在 CHAR_BIT == 8 和 char == unsigned char).

等同于使用构造函数立即复制它们：

std::wstring result(input.begin(), input.end());

Answer 2

使用 0xFF 进行屏蔽可将任何负值减少到 0-255 范围内。

这是合理的，例如，您平台的 char 是表示 ISO-8859-1 字符的 8 位带符号类型，而您的 wchar_t 表示 UCS-2、UTF- 16 或 UCS-4。

如果没有此更正（或类似的东西，例如转换为 unsigned char 或 std::byte），您会发现字符在提升为更宽的类型时为 sign-extended。

我认为将 char 转换为 unsigned char 更清楚 - 这适用于任何大小的字符，并且可以更好地传达意图。您可以直接更改该表达式，或创建一个 codecvt 子类，为您正在做的事情命名。

下面是如何编写和使用最小 codecvt（仅用于窄→宽转换）：

#include <codecvt>
#include <locale>
#include <string>

class codecvt_latin1 : public std::codecvt<wchar_t,char,std::mbstate_t>
{
protected:
    virtual result do_in(std::mbstate_t&,
                         const char* from,
                         const char* from_end,
                         const char*& from_next,
                         wchar_t* to,
                         wchar_t* to_end,
                         wchar_t*& to_next) const override
    {
        while (from != from_end && to != to_end)
            *to++ = (unsigned char)*from++;
        from_next = from;
        to_next = to;
        return result::ok;
    }
};

std::wstring convert(const std::string& input)
{
    using codecvt_utf8 = std::codecvt_utf8<wchar_t>;
    try {
        return std::wstring_convert<codecvt_utf8>().from_bytes(input);
    } catch (std::range_error&) {
        return std::wstring_convert<codecvt_latin1>{}.from_bytes(input);
    }
}

#include <iostream>

int main()
{
    std::locale::global(std::locale{""});

    // UTF-8:  £© おはよう
    std::wcout << convert(u8"\xc2\xa3\xc2\xa9 おはよう") << std::endl;
    // Latin-1: Â£©
    std::wcout << convert("\xc2\xa3\xa9") << std::endl;
}

输出：

£© おはよう
Â£©

为什么在将窄字符串转换为宽字符串时用 0xFF 屏蔽字符？

Why mask a char with 0xFF when converting narrow string to wide string?

c++

wstring

c++11