Swift 4 base64 字符串到数据由于包含 "incomplete" 表情符号的字符串而无法正常工作

Swift 4 base64 String to Data not working due to String containing "incomplete" emoji

我来自这个 post Swift 4 JSON String with unknown UTF8 "�" character is not convertible to Data/ Dictionary 但同时我能够将问题隔离为 10 个字符的字符串。

简短介绍:一位用户的应用没有显示任何内容。使用 TextWrangler 查看他的 6kb 纯文本数据,我发现了 2 个红色问号

我试图在问号周围剪切一些 base64 编码的数据块,并将它们转换为不起作用的数据。一旦我从块中删除红色问号中的位,它似乎又可以工作了。请看看我下面的游乐场示例:

//those do NOT work
let toEndBracket = "ACAAKgBVAFMAQQAqACAnlgAg2DwAIgB9AF0A" // *USA* ' <"}]//
let toMidBracket = "ACAAKgBVAFMAQQAqACAnlgAg2DwAIgB9"     // *USA* ' <"}//
let toCarrot =     "ACAAKgBVAFMAQQAqACAnlgAg2DwA"         // *USA* ' <//
let toSpace =      "ACAAKgBVAFMAQQAqACAnlgAg"             // *USA* ' //

//but this one WORKS
let toApostrophe = "ACAAKgBVAFMAQQAqACAn"                 // *USA* '//
//(basically the last one is without the space before the carrot, I've added the slashes after it to emphasize that)
//clear strings taken from https://www.base64decode.org/ using the UTF-8 setting WITHOUT "Live mode".

if let textData = Data(base64Encoded: toApostrophe) {
    print("Data created")   //works for all of them
    print(textData)
    if let decodedString = String(data: textData, encoding: .utf8) {
        print("WORKED!!!")  //only happens for the toApostrophe
        print(decodedString)
    } else {
        print("DID NOT WORK")
    }
}

所以基本上一包含lgAg就失效了。将其替换为 U29t 之类的内容确实可以使小字符串再次工作,但我无法在生产代码中执行此操作,因为我确信我的示例并不是唯一出现此问题的情况。我不在乎导致这种情况的原始字符/符号/表情符号会发生什么,如果有办法 "ignore" 它们就已经很有帮助了!

这是发生这种情况的另一个例子:

//OTHER SYMBOL WITH SAME BEHAVIOR
//not working
let secondFromSpace =  "ACDYPAAiACwA"       // <",//

//WORKING
let secondFromCarrot = "PAAiACwA"           //<",//

这是其栖息地中的原始文本,一条带有表情符号的信使消息说 "USA" 因此在我的示例文本中出现 "USA",我怀疑是表情符号导致它崩溃:

如果有人能告诉我如何 "clean up" base64 字符串以便它再次转换为数据,我将不胜感激。这也可能是由于某些表情符号的一些奇怪编码,但在大多数情况下,应用程序可以很好地接收和显示带有表情符号的内容。


我终于明白为什么会这样了。这不是我的问题的 swift 端解决方案,但现在它至少有一定的意义。对于新内容的预览,我切断了字符串以匹配浏览器的视口。这个特别不幸的用户在显示屏边框的边缘有美国国旗表情符号。我永远不会想到由多个字母组成的表情符号和 JavaScript 的 substring() 将它们斩首。看图吧,这解释了这个角色的出处等等

对于 Swift 中如何 avoid/ignore/catch 的回答,我仍然很感激,但对于每个可怜的灵魂 运行,我希望你会偶然发现这个问题。

(其中一些不在评论范围内,但试图将其整合并描述解决方案。)

首先,您的字符串不是 UTF-8。它们是 UTF-16 或格式错误的 UTF-16。有时 UTF-16 恰好可以解释为 UTF-8,但当它是时,字符串中会散布 NULL 字符。在您的 "working" 示例中,它并没有真正起作用。

let toApostrophe = "ACAAKgBVAFMAQQAqACAn"                 // *USA* '//
if let textData = Data(base64Encoded: toApostrophe) {
    if let decodedString = String(data: textData, encoding: .utf8) {
        print(decodedString)
        print(decodedString.count)
        print(decodedString.map { [=10=].unicodeScalars.map { [=10=].value } } )
    } else {
        print("DID NOT DECODE UTF8")
    }
} else {
    print("DID NOT DECODE BASE64")
}

打印:

 *USA* '
15
[[0], [32], [0], [42], [0], [85], [0], [83], [0], [65], [0], [42], [0], [32], [39]]

请注意,字符串的长度为 15 个字符,而不是您可能期望的 8 个字符。那是因为它在大多数字符之间包含一个额外的不可见 NULL (0)。

然而,

toEndBracket 并不是合法的 UTF-8。这是它的字节:

["00", "20", "00", "2a", "00", "55", "00", "53", "00", "41", "00", "2a", "00", "20", "27", "96", "00", "20", "d8", "3c", "00", "22", "00", "7d", "00", "5d", "00"]

在到达 0xd8 之前都可以。它以位 110 开始,表示它是一个两字节序列的开始。但下一个字节是 0x3c,它不是多字节序列的有效第二个字节(它应该以 10 开头,但它以 00 开头)。所以我们不能将其解码为 UTF-8。即使使用 decodeCString(_:as:repairingInvalidCodeUnits) 也无法解码此字符串,因为它充满了嵌入的 NULL。您必须至少使用正确的编码对其进行解码。

但让我们这样做吧。解码为 UTF-16。至少这很接近,即使它是稍微无效的 UTF-16。

let toEndBracket16 = String(data: toEndBracketData, encoding: .utf16)
// " *USA* ➖ �"}]"

现在我们至少可以解决这个问题。不过,它是无效的 JSON。所以我们可以通过过滤来去除它:

let legalJSON = String(toEndBracket16.filter { [=13=] != "\u{FFFD}" })
// " *USA* ➖ "}]"

我真的不推荐这种方法。它非常脆弱,并且基于损坏的输入。固定输入。但是在您尝试解析损坏的输入的世界中,这些就是工具。