如何删除 python 字符串的最后一个 utf8 字符
How to remove last utf8 char of a python string
我有一个包含 utf-8 编码文本的字符串。我需要删除最后一个 utf-8 字符。
到目前为止我做到了
msg = msg[:-1]
但这只会删除最后一个字节。只要最后一个字符是 ASCII 码,它就可以工作。当最后一个字符是多字节字符时,它不再起作用。
最简单的方法是将您的 UTF-8 字节解码为 Unicode 文本:
without_last = msg.decode('utf8')[:-1]
您随时可以重新编码。
另一种方法是让您搜索 UTF-8 start byte; UTF-8 字节序列始终以最高有效位设置为 0
或两个最高有效位设置为 1
的字节开头,而连续字节始终以 10
开头:
# find starting byte of last codepoint
pos = len(msg) - 1
while pos > -1 and ord(msg[pos]) & 0xC0 == 0x80:
# character at pos is a continuation byte (bit 7 set, bit 6 not)
pos -= 1
msg = msg[:pos]
我有一个包含 utf-8 编码文本的字符串。我需要删除最后一个 utf-8 字符。
到目前为止我做到了
msg = msg[:-1]
但这只会删除最后一个字节。只要最后一个字符是 ASCII 码,它就可以工作。当最后一个字符是多字节字符时,它不再起作用。
最简单的方法是将您的 UTF-8 字节解码为 Unicode 文本:
without_last = msg.decode('utf8')[:-1]
您随时可以重新编码。
另一种方法是让您搜索 UTF-8 start byte; UTF-8 字节序列始终以最高有效位设置为 0
或两个最高有效位设置为 1
的字节开头,而连续字节始终以 10
开头:
# find starting byte of last codepoint
pos = len(msg) - 1
while pos > -1 and ord(msg[pos]) & 0xC0 == 0x80:
# character at pos is a continuation byte (bit 7 set, bit 6 not)
pos -= 1
msg = msg[:pos]