NLTK3 Unicode解码错误

Question

我无法执行以下几行，错误是

"UnicodeDecodeError: 'ascii' codec can't decode byte 0xcb in position 0: ordinal not in range(128)"

文件 "D:\Py 64\ anaconda\lib\site-packages\nltk\tag__init__.py"，第 100 行，在 pos_tag 标记器=加载（_POS_TAGGER）

文件 "D:\Py 64\ anaconda\lib\site-packages\nltk\data.py"，第 779 行，加载中 resource_val = pickle.load(opened_resource, 编码='iso-8859-1')

我的错误不仅在data.py，而且在init.py.

注意：- 我已经更改了 data.py 中第 779 行中提到的代码 here

text = word_tokenize("They refuse to permit us to obtain the refuse permit")

nltk.pos_tag(text)

Answer 1

我相信使用 nltk 3.0.3 和最新的 maxent_treebank_pos_tagger 模型可以解决这个问题。

要安装 nltk，请使用

pip install -U nltk

确保 the pip you are calling is for Python3.

安装 nltk 后，打开 Python3 解释器，键入：

>>> import nltk
>>> nltk.download()

并使用 GUI 安装 maxent_treebank_pos_tagger。它位于 models 选项卡下：

models > maxent_treebank_pos_tagger

NLTK3 UnicodeDecode Error