Windows 在 C 中使用 WideCharToMultiByte 将 UTF-16 转换为 UTF-8

Converting UTF-16 to UTF-8 using WideCharToMultiByte in C on Windows

我正在尝试将 Windows wchar_t[] 转换为 UTF-8 编码 char[],以便对 WriteFile 的调用将生成 UTF-8 编码的文件。我有以下代码:

#include <windows.h>
#include <fileapi.h>
#include <stringapiset.h>

int main() {
    HANDLE file = CreateFileW(L"test.txt", GENERIC_ALL, 0, NULL, OPEN_ALWAYS, FILE_ATTRIBUTE_NORMAL, NULL);
    const wchar_t source[] = L"hello";
    char buffer[100];
    WideCharToMultiByte(CP_UTF8, 0, source, sizeof(source)/sizeof(source[0]), buffer, sizeof(buffer)/sizeof(buffer[0]), NULL, NULL);
    WriteFile(file, buffer, sizeof(buffer), NULL, NULL);
    return CloseHandle(file);
}

这会生成一个包含以下内容的文件:"hello" 但后面还有大量垃圾。

关于这件事的一些事情让我认为这个问题不仅仅是简单地将多余的字符转储到 buffer 中,而且转换没有正常进行,所以我将 source 文本更改为如下:

const wchar_t source[] = L"привет";

而这次得到了以下垃圾:

所以我想它可能会感到困惑,因为它正在寻找一个空终止符但没有找到,即使指定了长度?所以我再次更改源字符串:

const wchar_t source[] = L"hello\n";

并得到以下垃圾:

我是 WinAPI 的新手,主要不是 C 开发人员,所以我确定我遗漏了一些东西,我只是不知道还能尝试什么。

编辑: 按照 RbMm 的建议删除了多余的垃圾,因此英文打印正确。然而,俄语仍然是垃圾,只是更短的垃圾。与 zett42 的评论相反,我最确定使用的是 UTF-8 文本编辑器。

UTF-8 doesn't need a BOM,但无论如何加一个会产生:

嗯,这很奇怪。我期望相同的文本具有稍大的二进制大小。而是什么都没有。

编辑:

由于有些人热衷于坚持我正在使用写字板的想法,下面是写字板的样子

我显然没有使用写字板。我正在使用 VS Code,尽管无论是在 VS Code、Visual Studio、记事本还是 Notepad++ 中打开垃圾都是相同的。

编辑:

这是俄语输出的十六进制转储:

通常有两个完全独立的部分,让您的显示环境正确显示生成的 UTF-8 编码。

这是直接的 C 答案。 (我无法在 Windows-specific 方面帮助您。)

我这样重写了你的程序:

#include <stdio.h>
#include <wchar.h>
#include <stdlib.h>
#include <locale.h>

int main()
{
    const wchar_t source[] = L"привет";
    char utf8[30];
    int n;
    setlocale(LC_ALL, "");
    n = wcstombs(utf8, source, sizeof(utf8));
    printf("%.*s\n", n, utf8);
}

wcstombs 是标准 C 函数,用于将 wide-character 字符串转换为 "multibyte" 字符串,例如 UTF-8;我假设 WideCharToMultiByte 是 Windows-specific 等价物。

由于 wcstombs 理论上可以执行多个不同的潜在转换,因此正确设置 "locale" 很重要。在我的环境中(不是 Windows),我的语言环境设置为 "en_US.UTF-8"。那条线

setlocale(LC_ALL, "");

说在这个 C 程序中,我选择使用在我的环境中设置的语言环境(而不是使用默认的 "C" 语言环境)。

然后当我 运行 这个程序时,在我 的环境中 设置为正确显示 UTF-8 编码程序输出,我看到输出“ привет" 显示,如预期的那样。

我担心这对你来说可能会更难(无论你使用 wcstombs 还是 WideCharToMultiByte),因为在某些版本的 Windows 下我认为它需要一定的努力让 UTF-8 正确显示。但是从你在评论中添加的内容来看,这部分听起来工作正常。

更新 3:十六进制输出表明源文件在编译的某个地方被误解了。没有使用 UTF-8,而是使用了 Windows Codepage 1252,这意味着字符串在编译程序中的编码错误。因此,输出文件中存储的字节序列是 C3 90 C2 Bf C3 91 E2 82 AC C3 90 C2 B8 90 C2 B2 C3 90 C2 B5 C3 91 E2 80 9A 而不是正确的 D0 BF D1 80 D0 B8 D0 B2 D0 B5 D1 82.

如何解决这个问题取决于工具链。 MSVC 有 /utf-8 标志来设置源和执行字符集。您可能认为这是非常多余的,因为您已经将源文件保存为 UTF-8 格式?事实证明,写字板并不是唯一需要 BOM 来检测 UTF-8 的软件。以下文档摘录解释了整个编码问题的原因。

By default, Visual Studio detects a byte-order mark to determine if the source file is in an encoded Unicode format, for example, UTF-16 or UTF-8. If no byte-order mark is found, it assumes the source file is encoded using the current user code page, unless you have specified a code page by using /utf-8 or the /source-charset option.

在 Visual Studio 17 中,您还可以通过在 配置属性 > 常规 > 项目默认值 中设置 字符集 来配置字符集.如果您使用 cmake,您可能不会遇到这个问题,因为它开箱即用地正确配置了所有内容。

更新 2: 有些编辑器可能无法从像这样的短字节序列中推断出内容是 UTF-8,这将导致您看到的乱码输出。您可以在文件开头添加 UTF-8 字节顺序标记 (BOM) 以帮助这些编辑器,尽管这不是最佳做法,因为它混淆了元数据和内容,破坏了 ASCII 向后兼容性并且可以正确检测 UTF-8没有它。它主要是遗留软件,如 Microsoft 的写字板,需要 BOM 将文件解释为 UTF-8。

if (WriteFile(file, "\xef\xbb\xbf", 3, NULL, NULL) == 0) { goto error; }

更新:带有一些基本错误处理的代码:

#include <windows.h>
#include <fileapi.h>
#include <stringapiset.h>

int main() {
    int ret_val = -1;

    const wchar_t source[] = L"привет";

    HANDLE file = CreateFileW(L"test.txt", GENERIC_ALL, 0, NULL, OPEN_ALWAYS, FILE_ATTRIBUTE_NORMAL, NULL);

    if (file == INVALID_HANDLE_VALUE) { goto error_0; }

    size_t required_size = WideCharToMultiByte(CP_UTF8, 0, source, -1, NULL, 0, NULL, NULL);

    if (required_size == 0) { goto error_0; }

    char *buffer = calloc(required_size, sizeof(char));

    if (buffer == NULL) { goto error_0; }

    if (WideCharToMultiByte(CP_UTF8, 0, source, -1, buffer, required_size, NULL, NULL) == 0) { goto error_1; }

    if (WriteFile(file, buffer, required_size - 1, NULL, NULL) == 0) { goto error_1; }

    if (CloseHandle(file) == 0) { goto error_1; }

    ret_val = 0;

error_1:
    free(buffer);

error_0:
    return ret_val;
}

: 您可以执行以下操作,这将很好地创建文件。第一次调用 WideCharToMultiByte 用于确定存储 UTF-8 字符串所需的字节数。确保将源文件保存为 UTF-8,否则源字符串将无法在源文件中正确编码。

以下代码只是一个简单粗暴的示例,缺乏严格的错误处理。

#include <windows.h>
#include <fileapi.h>
#include <stringapiset.h>

int main() {
    HANDLE file = CreateFileW(L"test.txt", GENERIC_ALL, 0, NULL, OPEN_ALWAYS, FILE_ATTRIBUTE_NORMAL, NULL);
    const wchar_t source[] = L"привет";

    size_t required_size = WideCharToMultiByte(CP_UTF8, 0, source, -1, NULL, 0, NULL, NULL);

    char *buffer = (char *) calloc(required_size, sizeof(char));

    WideCharToMultiByte(CP_UTF8, 0, source, -1, buffer, required_size, NULL, NULL);
    WriteFile(file, buffer, required_size - 1, NULL, NULL);
    free(buffer);
    return CloseHandle(file);
}