如何select正确的codepage解码CArchive编码的内容

Question

在 .net 中，我想解码一些由 C++ 应用程序编码的原始数据。 C++ 应用程序是 32 位，C# 应用程序是 64 位。

C++ 应用程序支持俄语和西班牙语字符，但不支持 unicode 字符。此 C# 二进制文件 reader 无法读取俄语或西班牙语字符，仅适用于英语 ascii 字符。

CArchive 没有指定任何编码，我不确定如何从 C# 中读取它。

我已经针对几个简单的字符串测试了它，这是 C++ CArchive 提供的：

对于"ABC"：“03 41 42 43”

对于“ÁåëÀÇ 7555”：“0B C1 E5 EB C0 C7 20 37 35 35 35 C2”

下面展示了C++应用程序如何写入二进制文件。

void CColumnDefArray::SerializeData(CArchive& Archive)
{
    int iIndex;
    int iSize;
    int iTemp;
    CString sTemp;

    if (Archive.IsStoring())
    {
        Archive << m_iBaseDataCol;
        Archive << m_iNPValueCol;

        iSize = GetSize();
        Archive << iSize;
        for (iIndex = 0; iIndex < iSize; iIndex++)
        {
            CColumnDef& ColumnDef = ElementAt(iIndex);
            Archive << (int)ColumnDef.GetColumnType();
            Archive << ColumnDef.GetColumnId();
            sTemp = ColumnDef.GetName();
            Archive << sTemp;
        }
    }
}

这就是我尝试在 C# 中阅读它的方式。

以下可以解码 "ABC" 但不能解码俄语字符。我已经使用所有可用选项（Ascii、UTF7 等）测试了 this.Encoding。 俄语字符仅适用于 Encoding.Default。 但显然这不是一个可靠的选择，因为编码和解码通常发生在不同的 PC 上。

        public override string ReadString()
        {
            byte blen = ReadByte();
            if (blen < 0xff)
            {
                // *** For russian characters it comes here.***
                return this.Encoding.GetString(ReadBytes(blen));
            }

            var slen = (ushort) ReadInt16();
            if (slen == 0xfffe)
            {
                throw new NotSupportedException(ServerMessages.UnicodeStringsAreNotSupported());
            }

            if (slen < 0xffff)
            {
                return this.Encoding.GetString(ReadBytes(slen));
            }

            var ulen = (uint) ReadInt32();
            if (ulen < 0xffffffff)
            {
                var bytes = new byte[ulen];
                for (uint i = 0; i < ulen; i++)
                {
                    bytes[i] = ReadByte();
                }

                return this.Encoding.GetString(bytes);
            }

            //// Not support for 8-byte lengths 
            throw new NotSupportedException(ServerMessages.EightByteLengthStringsAreNotSupported());
        }

正确的解码方法是什么？您认为选择正确的代码页是解决这个问题的方法吗？如果是这样，如何知道使用哪个代码页进行编码？

如果有人能告诉我完成这项工作的正确方向，我将不胜感激。

编辑

我猜this Question and "The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)"文章解决了一些疑惑。显然无法为现有数据找到正确的代码页。

我想现在的问题是：是否有支持所有西班牙文、俄文和英文字符的代码页？我可以在 C++ CArchive 中指定代码页 class?

Answer 1

非 Unicode C++ 程序将数据写入为 0B C1 E5 EB C0 C7 20 37 35 35 35 C2（字符串的长度，后跟 bytes）

"ÁåëÀÇ 7555Â" 是 bytes 在代码页 1252

中的表示

在英文计算机上，以下代码 returns "ÁåëÀÇ 7555Â"。如果两个程序使用相同的代码页，则此方法有效：

string result = Encoding.Default.GetString(bytes);

您也可以直接使用代码页1252。这将保证该特定字节集的结果始终为 "ÁåëÀÇ 7555Â"：

//result will be `"ÁåëÀÇ 7555Â"`, always
Encoding cp1252 = Encoding.GetEncoding(1252);
string result = cp1252.GetString(bytes);

但是，这可能无法解决任何问题。考虑一个希腊文本的例子：

string greek = "ελληνικά";
Encoding cp1253 = Encoding.GetEncoding(1253);
var bytes = cp1253.GetBytes(greek);

bytes 将类似于 C++ 程序的输出。您可以使用相同的技术来提取文本：

//result will be "åëëçíéêÜ"
Encoding cp1252 = Encoding.GetEncoding(1252);
string result = cp1252.GetString(bytes);

结果是"åëëçíéêÜ"。但期望的结果是 "ελληνικά"

//result will be "ελληνικά"
Encoding cp1253 = Encoding.GetEncoding(1253);
string greek_decoded = cp1253.GetString(bytes);

因此，为了进行正确的转换，您必须拥有 C++ 程序使用的原始代码页 （我只是在重复 Hans Passant）

您可以进行如下修改：

public override string ReadString()
{
    //Default code page if both programs use the same code page
    Encoding encoder = System.Text.Encoding.Default;

    //or find out what code page the C++ program is using
    //Encoding encoder = System.Text.Encoding.GetEncoding(codepage);

    //or use English code page to always get "ÁåëÀÇ 7555Â"...
    //Encoding encoder = System.Text.Encoding.GetEncoding(1252);
    //(not recommended)

    byte blen = ReadByte();
    if (blen < 0xff)
        return encoder.GetString(ReadBytes(blen));

    var slen = (ushort)ReadInt16();
    if (slen == 0xfffe)
        throw new NotSupportedException(
            ServerMessages.UnicodeStringsAreNotSupported());

    if (slen < 0xffff)
        return encoder.GetString(ReadBytes(blen));

    var ulen = (uint)ReadInt32();
    if (ulen < 0xffffffff)
    {
        var bytes = new byte[ulen];
        for (uint i = 0; i < ulen; i++)
            bytes[i] = ReadByte();
        return encoder.GetString(ReadBytes(blen));
    }

    throw new NotSupportedException(
        ServerMessages.EightByteLengthStringsAreNotSupported());
}

附加评论：

非 Unicode MFC 程序可以输入英文或俄文，但不能同时输入两种语言。这些旧程序使用 char 每个字节最多存储 255 个字母。 255 个空间不足以容纳英语、俄语、希腊语、阿拉伯语中的所有字母...

代码页 1252 将字符映射到拉丁字母表。而代码页 1253 将字符映射到希腊字母等等。

因此您的 MFC 文件只包含一个代码页的一种语言。

西欧语言（英语、西班牙语、葡萄牙语、德语、法语、意大利语、瑞典语等）使用代码页 1252。如果用户属于该语言组，则不会有太大问题。 System.Text.Encoding.Default 应该可以解决问题，或者更好 System.Text.Encoding.GetEncoding(variable_codepage)

Windows

中有一些相关的 ANSI 代码页

874 – Windows Thai
1250 – Windows Central and East European Latin 2
1251 – Windows Cyrillic
1252 – Windows West European Latin 1
1253 – Windows Greek
1254 – Windows Turkish
1255 – Windows Hebrew
1256 – Windows Arabic
1257 – Windows Baltic
1258 – Windows Vietnamese

如果没有 Unicode，则不支持某些亚洲语言。 ANSI 不支持某些 Unicode 符号，对此无能为力。

可以强制非 unicode 程序使用多个代码页。但这是不实用的。升级到 Unicode 并正确执行此操作要容易得多。

另见 The Minimum Software Developers Must Know About Unicode

如何select正确的codepage解码CArchive编码的内容

How select the right codepage to decode the content encoded by CArchive

.net

c#

c++

encoding

codepages