如何将 unicode 打印到终端和文件重定向
How to print unicode to both terminal and file redirect
我阅读了有关 Unicode、UTF-8、encoding/decoding 和所有内容的所有内容,但我仍在挣扎。
我做了一个简短的示例片段来说明我的问题。
我想打印字符串 'Geïrriteerd' 就像这里写的一样。如果我 运行 它重定向到一个文件,比如 'Test.py > output'
,我需要使用下面的代码让它正确地打印到一个文件
# coding=utf-8
import codecs
import sys
sys.stdout = codecs.getwriter('UTF-8')(sys.stdout)
print u'Geïrriteerd'
但是如果我不重定向,上面的代码将 'Ge├»rriteerd' 打印到终端。
如果我删除 'codecs.getwriter' 行,它会再次打印到终端,但会打印 'Ge├»rriteerd' 到文件。
如何才能在这两种情况下正确打印?
我在 Windows 10 上使用 Python 2.7。我知道 Python 3.x 通常可以更好地处理 unicode,但我不能在我的项目中使用它(还)由于其他依赖项。
您的终端设置为 cp850 而不是 UTF-8。
运行 chcp 65001
.
您需要先 "encode" 您的 unicode 才能写入文件或显示。你并不真的需要 codecs 模块。
docs 提供了使用 unicode 的非常好的示例。
print type(u'Geïrriteerd')
print type(u'Geïrriteerd'.encode('utf-8'))
print u'Geïrriteerd'.encode('utf-8')
with open('test.txt', 'wb') as f:
f.write(u'Geïrriteerd'.encode('utf-8'))
with open('test.txt', 'r') as f:
content = f.read()
print content
#If you want to use codecs still
import codecs
with codecs.open("test.txt", "w", encoding="utf-8") as f:
f.write(u'Geïrriteerd')
with open('test.txt', 'r') as f:
content = f.read()
print content
由于重定向是一个 shell 操作,因此使用 shell 控制编码也很有意义。幸运的是,Python 提供了一个环境变量来控制编码。给定 test.py
:
#!python2
# coding=utf-8
print u'Geïrriteerd'
要重定向到具有特定编码的文件,请使用:
C:\>set PYTHONIOENCODING=utf8
C:\>test >out.txt
运行 通常未定义 PYTHONIOENCODING 的脚本将使用终端的编码(在我的例子中 cp437
):
C:\>set PYTHONIOENCODING=
C:\>test
Geïrriteerd
我阅读了有关 Unicode、UTF-8、encoding/decoding 和所有内容的所有内容,但我仍在挣扎。
我做了一个简短的示例片段来说明我的问题。
我想打印字符串 'Geïrriteerd' 就像这里写的一样。如果我 运行 它重定向到一个文件,比如 'Test.py > output'
,我需要使用下面的代码让它正确地打印到一个文件# coding=utf-8
import codecs
import sys
sys.stdout = codecs.getwriter('UTF-8')(sys.stdout)
print u'Geïrriteerd'
但是如果我不重定向,上面的代码将 'Ge├»rriteerd' 打印到终端。 如果我删除 'codecs.getwriter' 行,它会再次打印到终端,但会打印 'Ge├»rriteerd' 到文件。
如何才能在这两种情况下正确打印?
我在 Windows 10 上使用 Python 2.7。我知道 Python 3.x 通常可以更好地处理 unicode,但我不能在我的项目中使用它(还)由于其他依赖项。
您的终端设置为 cp850 而不是 UTF-8。
运行 chcp 65001
.
您需要先 "encode" 您的 unicode 才能写入文件或显示。你并不真的需要 codecs 模块。 docs 提供了使用 unicode 的非常好的示例。
print type(u'Geïrriteerd')
print type(u'Geïrriteerd'.encode('utf-8'))
print u'Geïrriteerd'.encode('utf-8')
with open('test.txt', 'wb') as f:
f.write(u'Geïrriteerd'.encode('utf-8'))
with open('test.txt', 'r') as f:
content = f.read()
print content
#If you want to use codecs still
import codecs
with codecs.open("test.txt", "w", encoding="utf-8") as f:
f.write(u'Geïrriteerd')
with open('test.txt', 'r') as f:
content = f.read()
print content
由于重定向是一个 shell 操作,因此使用 shell 控制编码也很有意义。幸运的是,Python 提供了一个环境变量来控制编码。给定 test.py
:
#!python2
# coding=utf-8
print u'Geïrriteerd'
要重定向到具有特定编码的文件,请使用:
C:\>set PYTHONIOENCODING=utf8
C:\>test >out.txt
运行 通常未定义 PYTHONIOENCODING 的脚本将使用终端的编码(在我的例子中 cp437
):
C:\>set PYTHONIOENCODING=
C:\>test
Geïrriteerd