NLTK 无法打开文件 (UnicodeDecoreError)

NLTK can't open files (UnicodeDecoreError)

我有一个任务要处理一些文件,我需要使用 NLTK。我与 J. K. 罗琳的哈利波特书籍和短篇小说一起工作。有些文件打开clerale,我可以数词,数句等,但是我有问题。当我尝试打开大文件时,我得到这样的信息:https://pp.vk.me/c623420/v623420264/2d8b5/xE66_z6JWUs.jpg

请说是什么事。

很可能是文件编码问题,因为我看不到你的代码或文件,我建议你在将文件传递给 NLTK 之前尝试在打开文件时指定一种编码

import io
io.open('harrypotter.txt', encoding='ISO-8859-1')  # Or other encoding of your file