混淆文件中的字符

Confusing characters in a file

我正在尝试读取 THIS 文件,其中有一些奇怪的字符。在 Notepad++ 中打开文件会导致它们被 "sub" 字符

替换

文件内容为:

>>> open('test.txt', 'rb').read()
b'the first line\r\nsomething something \x06d \x1a Rd<br>+ \x1a Rd;;\x06d \x1a Rd<br>+ \x1a\r\nthe third line\r\neverything\r\nafter\r\nthe\r\nfourth\r\nline'

我正在使用 Python 和一个简单的代码

with open('test.txt') as f:
    for line in f:
        print line

这导致程序完全忽略第一个子字符之后的所有内容。它根本不打印出第三行和任何其他行。

我现在的问题有两个:

  1. 文件中的未知字符到底是什么?
  2. 读取包含这些奇怪字符的文件的最佳方法是什么?

编辑:

据我了解,问题来自字符\x1a,根据this question,即"end of file character"。这解释了 python 在遇到它们时只是停止读取文件这一事实,这意味着我现在的问题是:

How can I, using Python, read a file that contains the escape character U+001A in the middle without Python interpreting it as end of file?

我在 Windows。有趣的是,Python 3.3 在二进制和文本模式下都可以很好地读取文件,但是文本模式解码为 Unicode 并且可能在幕后以二进制模式读取文件:

Python 3.3.0 (v3.3.0:bd8afb90ebf2, Sep 29 2012, 10:57:17) [MSC v.1600 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> open('test.txt','rb').read()
b'the first line\r\nsomething something \x06d \x1a Rd<br>+ \x1a Rd;;\x06d \x1a Rd<br>+ \x1a\r\nthe third line\r\neverything\r\nafter\r\nthe\r\nfourth\r\nline'
>>> open('test.txt','r').read()
'the first line\nsomething something \x06d \x1a Rd<br>+ \x1a Rd;;\x06d \x1a Rd<br>+ \x1a\nthe third line\neverything\nafter\nthe\nfourth\nline'

但是,在 Python 2.7 上,它 确实 停在 \x1a:

Python 2.7.5 (default, May 15 2013, 22:44:16) [MSC v.1500 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> open('test.txt','rb').read()
'the first line\r\nsomething something \x06d \x1a Rd<br>+ \x1a Rd;;\x06d \x1a Rd<br>+ \x1a\r\nthe third line\r\neverything\r\nafter\r\nthe\r\nfourth\r\nline'
>>> open('test.txt','r').read()
'the first line\nsomething something \x06d '

文本和二进制模式之间的唯一区别是 \r\n 被转换为 \n,因此如果您仍然想要该翻译但不停止在 \x1a,请阅读文件二进制并自己替换:

>>> open('test.txt','rb').read().replace('\r\n','\n')
'the first line\nsomething something \x06d \x1a Rd<br>+ \x1a Rd;;\x06d \x1a Rd<br>+ \x1a\nthe third line\neverything\nafter\nthe\nfourth\nline'