NLTK3 Unicode解码错误

NLTK3 UnicodeDecode Error

我无法执行以下几行,错误是

"UnicodeDecodeError: 'ascii' codec can't decode byte 0xcb in position 0: ordinal not in range(128)"

文件 "D:\Py 64\ anaconda\lib\site-packages\nltk\tag__init__.py",第 100 行,在 pos_tag 标记器=加载(_POS_TAGGER)

文件 "D:\Py 64\ anaconda\lib\site-packages\nltk\data.py",第 779 行,加载中 resource_val = pickle.load(opened_resource, 编码='iso-8859-1')

我的错误不仅在data.py,而且在init.py.

注意:- 我已经更改了 data.py 中第 779 行中提到的代码 here


text = word_tokenize("They refuse to permit us to obtain the refuse permit")

nltk.pos_tag(text)

我相信使用 nltk 3.0.3 和最新的 maxent_treebank_pos_tagger 模型可以解决这个问题。

要安装 nltk,请使用

pip install -U nltk

确保 the pip you are calling is for Python3.

安装 nltk 后,打开 Python3 解释器,键入:

>>> import nltk
>>> nltk.download()

并使用 GUI 安装 maxent_treebank_pos_tagger。它位于 models 选项卡下:

models > maxent_treebank_pos_tagger