UnicodeEncodeError: 'ascii' codec can't encode character '\xe9' when printing in UTF-8 locale

UnicodeEncodeError: 'ascii' codec can't encode character '\xe9' when printing in UTF-8 locale

我正在清理 Europarl 的法语单语语料库 (http://data.statmt.org/wmt19/translation-task/fr-de/monolingual/europarl-v7.fr.gz)。 .gz文件中的原始原始数据(我使用wget下载)。我想提取文本并查看它的外观,以便进一步处理语料库。

使用以下代码从gzip中提取文本,我获得了class为bytes的数据。

with gzip.open(file_path, 'rb') as f_in:
    print('type(f_in)=', type(f_in))
    text = f_in.read()
    print('type(text)=', type(text))

前几行的打印结果如下:

type(f_in) = class 'gzip.GzipFile'

type(text)= class 'bytes'

b'Reprise de la session\nJe d\xc3\xa9clare reprise la session du Parlement europ\xc3\xa9en qui avait \xc3\xa9t\xc3\xa9 interrompue le vendredi 17 d\xc3\xa9cembre dernier et je vous renouvelle tous mes vux en esp\xc3\xa9rant que vous avez pass\xc3\xa9 de bonnes vacances.\nComme vous avez pu le constater, le grand "bogue de l\'an 2000" ne s\'est pas produit.\n

我尝试使用以下代码用 utf8ascii 解码二进制数据:

with gzip.open(file_path, 'rb') as f_in:
    print('type(f_in)=', type(f_in))
    text = f_in.read().decode('utf8')
    print('type(text)=', type(text))

它返回了这样的错误:

UnicodeEncodeError: 'ascii' codec can't encode character '\xe9' in position 26: ordinal not in range(128)

我也尝试使用 codecsunicodedata 包打开文件,但它也返回编码错误。

你能帮我解释一下我应该怎么做才能像这样以正确的格式获取法语文本吗?

Reprise de la session\nJe déclare reprise la session du Parlement européen qui avait été interrompue le vendredi 17 décembre dernier et je vous renouvelle tous mes vux en espérant que vous avez passé de bonnes vacances.\nComme vous avez pu le constater, le grand "bogue de l'an 2000" ne s'est pas produit.\n

非常感谢您的帮助!

非常感谢您的帮助!我找到了一个简单的解决方案来解决。我不确定它为什么有效,但我认为可能以某种方式支持 .txt 格式?如果你知道这个机制,那将是非常有帮助的。

with gzip.open(file_path, 'rb') as f_in:
    text = f_in.read()

with open(os.path.join(out_dir, 'europarl.txt'), 'wb') as f_out:
    f_out.write(text)

当我在终端中打印出文本文件时,它看起来像这样:

Reprise de la session Je déclare reprise la session du Parlement européen qui avait été interrompue le vendredi 17 décembre dernier et je vous renouvelle tous mes vux en espérant que vous avez passé de bonnes vacances. Comme vous avez pu le constater, le grand "bogue de l'an 2000" ne s'est pas produit. En revanche, les citoyens d'un certain nombre de nos pays ont été victimes de catastrophes naturelles qui ont vraiment été terribles. Vous avez souhaité un débat à ce sujet dans les prochains jours, au cours de cette période de session.

UnicodeEncodeError 发生是因为在打印时,Python 将字符串编码为字节,但在这种情况下,所使用的编码 - ASCII - 没有匹配 '\xe9' 的字符,因此引发错误.

设置 PYTHONIOENCODING 环境变量强制 Python 使用不同的编码 - 环境变量的值。 UTF-8编码可以编码任何字符,所以调用程序解决问题:

PYTHONIOENCODING=UTF-8 python3  europarl_extractor.py

假设代码是这样的:

import gzip

if __name__ == '__main__':
    with gzip.open('europarl-v7.fr.gz', 'rb') as f_in:
        bs = f_in.read()
        txt = bs.decode('utf-8')
        print(txt[:100])

可以通过其他方式设置环境变量 - 通过 export 语句,.bashrc.profile

一个有趣的问题是为什么 Python 试图将输出编码为ASCII。我假设在 *nix 系统上,Python 本质上是查看 $LANG 环境变量来确定要使用的编码。但是在 $LANG 的值是 fr_FR.UTF-8 的情况下,然而 Python 正在使用 ASCII 作为输出编码。

从查看source for the locale module, and this FAQ,检查了这些环境变量,依次为:

'LC_ALL', 'LC_CTYPE', 'LANG', 'LANGUAGE'

因此可能 LC_ALLLC_CTYPE 之一已设置为在您的环境中强制使用 ASCII 编码的值(您可以通过 运行 检查 locale 命令;运行 locale charmap 也会告诉你编码本身)。