使用 C++ 将越南语字符从 ISO88591、UTF8、UTF16BE、UTF16LE、UTF16 编码为十六进制,反之亦然
Encoding Vietnamese characters from ISO88591, UTF8, UTF16BE, UTF16LE, UTF16 to Hex and vice versa using C++
我已经编辑了我的 post。目前我正在尝试做的是对来自用户的输入字符串进行编码,然后将其转换为十六进制格式。如果它不包含任何越南字符,我可以正确地完成它。
如果我的 inputString 是 "Hello"。但是当我尝试输入一个字符串如"Tôi"时,我不知道该怎么做。
enum Encodings { USASCII, ISO88591, UTF8, UTF16BE, UTF16LE, UTF16, BIN, OCT, HEX };
switch (Encodings)
{
case USASCII:
ASCIIToHex(inputString, &ascii); //hello output 48656C6C6F
return new ByteField(ascii.c_str());
case ISO88591:
ASCIIToHex(inputString, &ascii);//hello output 48656C6C6F
//tôi output 54F469
return new ByteField(ascii.c_str());
case UTF8:
ASCIIToHex(inputString, &ascii);//hello output 48656C6C6F
//tôi output 54C3B469
return new ByteField(ascii.c_str());
case UTF16BE:
ToUTF16(inputString, &ascii, Encodings);//hello output 00480065006C006C006F
//tôi output 005400F40069
return new ByteField(ascii.c_str());
case UTF16:
ToUTF16(inputString, &ascii, Encodings);//hello output FEFF00480065006C006C006F
//tôi output FEFF005400F40069
return new ByteField(ascii.c_str());
case UTF16LE:
ToUTF16(inputString, &ascii, Encodings);//hello output 480065006C006C006F00
//tôi output 5400F4006900
return new ByteField(ascii.c_str());
}
void StringUtilLib::ASCIIToHex(std::string s, std::string * result)
{
int n = s.length();
for (int i = 0; i < n; i++)
{
unsigned char c = s[i];
long val = long(c);
std::string bin = "";
while (val > 0)
{
(val % 2) ? bin.push_back('1') :
bin.push_back('0');
val /= 2;
}
reverse(bin.begin(), bin.end());
result->append(ConvertBinToHex(bin));
}
}
std::string ToUTF16(std::string s, std::string * result, int encodings) {
int n = s.length();
if (encodings == UTF16) {
result->append("FEFF");
}
for (int i = 0; i < n; i++)
{
int val = int(s[i]);
std::string bin = "";
while (val > 0)
{
(val % 2) ? bin.push_back('1') :
bin.push_back('0');
val /= 2;
}
reverse(bin.begin(), bin.end());
if (encodings == UTF16 || encodings == UTF16BE) {
result->append("00" + ConvertBinToHex(bin));
}
if (encodings == UTF16LE) {
result->append(ConvertBinToHex(bin) + "00");
}
}
}
std::string ConvertBinToHex(std::string str) {
long long temp = atoll(str.c_str());
int dec_value = 0;
int base = 1;
int i = 0;
while (temp) {
int last_digit = temp % 10;
temp = temp / 10;
dec_value += last_digit * base;
base = base * 2;
}
char hexaDeciNum[10];
while (dec_value != 0)
{
int temp = 0;
temp = dec_value % 16;
if (temp < 10)
{
hexaDeciNum[i] = temp + 48;
i++;
}
else
{
hexaDeciNum[i] = temp + 55;
i++;
}
dec_value = dec_value / 16;
}
str.clear();
for (int j = i - 1; j >= 0; j--) {
str = str + hexaDeciNum[j];
}
return str;
}
如果您使用的是 signed char 和 CP1258,-64 是 À 的正确表示。如果你想要一个正数,你需要先转换为 unsigned char
。
如果您确实在使用 CP1258,那么您可能在 Windows。要将输入字符串转换为 UTF-16,您可能想使用 Windows 平台 API,例如 MultiByteToWideChar
which accepts a code page parameter (of course you have to use the correct code page). Alternatively you may try a standard function like mbstowcs
,但您需要在使用前正确设置语言环境。
您可能会发现在整个应用程序中切换到宽字符更容易,并且避免大多数转码。
附带说明一下,将整数转换为二进制只是为了将其转换为十六进制并不是显示整数的十六进制表示形式的简单或有效方法。
问题完全不清楚。要对某些内容进行编码,您需要输入吗?因此,当您说 “将越南字符编码为 UTF8、UTF16” 时,您的输入字符串是什么,在转换为 UTF-8/16 之前的编码是什么?你如何输入它?来自文件或控制台?
你究竟为什么要转换为二进制然后再转换为十六进制?您可以直接从字节打印为二进制和十六进制,无需从二进制转换为十六进制。请注意,像这样转换为二进制文件对于测试来说很好,但在生产代码中效率非常低。我也不知道你所说的 是什么意思“但是如果我的字母是越南字母“Á”或“À”我无法得到它的值怎么办。请显示 minimal, reproducible example 以及 input/output
但我认为您只想从源代码中的字符串文字输出 UTF 编码字节,例如“ÁÀ”。在那种情况下,它不被称为“编码字符串”,而只是“输出字符串”
Unicode中的Á
和À
都可以用precomposed characters (U+00C1 and U+00C0) or combining characters表示(A + U+0301◌́/U+0300◌̀)。您可以通过在 Unikey 中选择 "Unicode dựng sẵn" 或 "Unicode tổ hợp" 在它们之间切换。假设你有那些字符串文字形式的字符,那么 std::string str = "ÁÀ"
包含一系列字节,这些字节对应于源文件编码中的上述字母。因此,根据您将 *.cpp 文件保存为(CP1252、CP1258、UTF-8...)的编码,输出字节值将不同
要强制使用 UTF-8/16/32 编码,您只需分别使用 u8
、u
和 U
后缀,以及正确的类型(char8_t
、char16_t
、char32_t
或 std::u8string
/std::u16string
/std::u32string
)
std::u8string utf8 = u8"ÁÀ";
std::u16string utf16 = u"ÁÀ";
std::u32string utf32 = U"ÁÀ";
然后只需使用 c_str()
获取底层缓冲区并打印字节。在 C++14 中,std::u8string
尚不可用,因此只需将文件保存为 UTF-8 并使用 std::string
。类似地,您可以直接从 std::cin
读取 std::u*string
以打印用户输入字符串的编码
编辑:
要在 UTF 编码之间进行转换,请使用标准 std::codecvt
, std::wstring_convert
, std::codecvt_utf8_utf16
...
处理非 Unicode 编码比较棘手,需要一些外部库,例如 ICU 或 OS 依赖的 API
WideCharToMultiByte
and MultiByteToWideChar
在 Windows
iconv
在 Linux
限制为 ISO-8859-1 会更容易,但您仍然需要许多查找表,并且无法在不丢失信息的情况下将其他编码转换为 ASCII
我已经编辑了我的 post。目前我正在尝试做的是对来自用户的输入字符串进行编码,然后将其转换为十六进制格式。如果它不包含任何越南字符,我可以正确地完成它。 如果我的 inputString 是 "Hello"。但是当我尝试输入一个字符串如"Tôi"时,我不知道该怎么做。
enum Encodings { USASCII, ISO88591, UTF8, UTF16BE, UTF16LE, UTF16, BIN, OCT, HEX };
switch (Encodings)
{
case USASCII:
ASCIIToHex(inputString, &ascii); //hello output 48656C6C6F
return new ByteField(ascii.c_str());
case ISO88591:
ASCIIToHex(inputString, &ascii);//hello output 48656C6C6F
//tôi output 54F469
return new ByteField(ascii.c_str());
case UTF8:
ASCIIToHex(inputString, &ascii);//hello output 48656C6C6F
//tôi output 54C3B469
return new ByteField(ascii.c_str());
case UTF16BE:
ToUTF16(inputString, &ascii, Encodings);//hello output 00480065006C006C006F
//tôi output 005400F40069
return new ByteField(ascii.c_str());
case UTF16:
ToUTF16(inputString, &ascii, Encodings);//hello output FEFF00480065006C006C006F
//tôi output FEFF005400F40069
return new ByteField(ascii.c_str());
case UTF16LE:
ToUTF16(inputString, &ascii, Encodings);//hello output 480065006C006C006F00
//tôi output 5400F4006900
return new ByteField(ascii.c_str());
}
void StringUtilLib::ASCIIToHex(std::string s, std::string * result)
{
int n = s.length();
for (int i = 0; i < n; i++)
{
unsigned char c = s[i];
long val = long(c);
std::string bin = "";
while (val > 0)
{
(val % 2) ? bin.push_back('1') :
bin.push_back('0');
val /= 2;
}
reverse(bin.begin(), bin.end());
result->append(ConvertBinToHex(bin));
}
}
std::string ToUTF16(std::string s, std::string * result, int encodings) {
int n = s.length();
if (encodings == UTF16) {
result->append("FEFF");
}
for (int i = 0; i < n; i++)
{
int val = int(s[i]);
std::string bin = "";
while (val > 0)
{
(val % 2) ? bin.push_back('1') :
bin.push_back('0');
val /= 2;
}
reverse(bin.begin(), bin.end());
if (encodings == UTF16 || encodings == UTF16BE) {
result->append("00" + ConvertBinToHex(bin));
}
if (encodings == UTF16LE) {
result->append(ConvertBinToHex(bin) + "00");
}
}
}
std::string ConvertBinToHex(std::string str) {
long long temp = atoll(str.c_str());
int dec_value = 0;
int base = 1;
int i = 0;
while (temp) {
int last_digit = temp % 10;
temp = temp / 10;
dec_value += last_digit * base;
base = base * 2;
}
char hexaDeciNum[10];
while (dec_value != 0)
{
int temp = 0;
temp = dec_value % 16;
if (temp < 10)
{
hexaDeciNum[i] = temp + 48;
i++;
}
else
{
hexaDeciNum[i] = temp + 55;
i++;
}
dec_value = dec_value / 16;
}
str.clear();
for (int j = i - 1; j >= 0; j--) {
str = str + hexaDeciNum[j];
}
return str;
}
-64 是 À 的正确表示。如果你想要一个正数,你需要先转换为 unsigned char
。
如果您确实在使用 CP1258,那么您可能在 Windows。要将输入字符串转换为 UTF-16,您可能想使用 Windows 平台 API,例如 MultiByteToWideChar
which accepts a code page parameter (of course you have to use the correct code page). Alternatively you may try a standard function like mbstowcs
,但您需要在使用前正确设置语言环境。
您可能会发现在整个应用程序中切换到宽字符更容易,并且避免大多数转码。
附带说明一下,将整数转换为二进制只是为了将其转换为十六进制并不是显示整数的十六进制表示形式的简单或有效方法。
问题完全不清楚。要对某些内容进行编码,您需要输入吗?因此,当您说 “将越南字符编码为 UTF8、UTF16” 时,您的输入字符串是什么,在转换为 UTF-8/16 之前的编码是什么?你如何输入它?来自文件或控制台?
你究竟为什么要转换为二进制然后再转换为十六进制?您可以直接从字节打印为二进制和十六进制,无需从二进制转换为十六进制。请注意,像这样转换为二进制文件对于测试来说很好,但在生产代码中效率非常低。我也不知道你所说的 是什么意思“但是如果我的字母是越南字母“Á”或“À”我无法得到它的值怎么办。请显示 minimal, reproducible example 以及 input/output
但我认为您只想从源代码中的字符串文字输出 UTF 编码字节,例如“ÁÀ”。在那种情况下,它不被称为“编码字符串”,而只是“输出字符串”
Unicode中的Á
和À
都可以用precomposed characters (U+00C1 and U+00C0) or combining characters表示(A + U+0301◌́/U+0300◌̀)。您可以通过在 Unikey 中选择 "Unicode dựng sẵn" 或 "Unicode tổ hợp" 在它们之间切换。假设你有那些字符串文字形式的字符,那么 std::string str = "ÁÀ"
包含一系列字节,这些字节对应于源文件编码中的上述字母。因此,根据您将 *.cpp 文件保存为(CP1252、CP1258、UTF-8...)的编码,输出字节值将不同
要强制使用 UTF-8/16/32 编码,您只需分别使用 u8
、u
和 U
后缀,以及正确的类型(char8_t
、char16_t
、char32_t
或 std::u8string
/std::u16string
/std::u32string
)
std::u8string utf8 = u8"ÁÀ";
std::u16string utf16 = u"ÁÀ";
std::u32string utf32 = U"ÁÀ";
然后只需使用 c_str()
获取底层缓冲区并打印字节。在 C++14 中,std::u8string
尚不可用,因此只需将文件保存为 UTF-8 并使用 std::string
。类似地,您可以直接从 std::cin
读取 std::u*string
以打印用户输入字符串的编码
编辑:
要在 UTF 编码之间进行转换,请使用标准 std::codecvt
, std::wstring_convert
, std::codecvt_utf8_utf16
...
处理非 Unicode 编码比较棘手,需要一些外部库,例如 ICU 或 OS 依赖的 API
WideCharToMultiByte
andMultiByteToWideChar
在 Windowsiconv
在 Linux
限制为 ISO-8859-1 会更容易,但您仍然需要许多查找表,并且无法在不丢失信息的情况下将其他编码转换为 ASCII