使用 nltk pos 标记器时出现错误的 zip 文件错误
Bad zip file error while using nltk pos tagger
我正在尝试使用 NLTK 词性标注器,但收到“zipfile.BadZipfile:文件不是 zip 文件”错误。
错误来自这段代码:
import nltk
sentence = "I love python"
tokens = nltk.word_tokenize(sentence)
pos_tags = nltk.pos_tag(tokens)
print nltk.ne_chunk(pos_tags, binary=True)
我发现 this question 与我的问题有关。不幸的是,我无法下载整个语料库,因为我在服务器上工作并且有很多内存限制。谁能指出我需要的特定文件,这样我就可以只下载那个文件而不是整个语料库?
(我正在使用 Python 2.7.6)
试试这些:
nltk.download("maxent_treebank_pos_tagger")
nltk.download("maxent_ne_chunker")
nltk.download("punkt")
前两个分别用于词性标记和命名实体。第三个你没有在你的代码示例中使用,但你将需要它用于 nltk.sent_tokenize()
,它将纯文本分解成句子。由于您将使用 POS 标签,因此我也会下载这些标签(它们很小):
nltk.download(["tagsets", "universal_tagset"])
如果您有一点 space,下载整个 "book" 合集将为您提供探索 NLTK 所需的一切。
我正在尝试使用 NLTK 词性标注器,但收到“zipfile.BadZipfile:文件不是 zip 文件”错误。
错误来自这段代码:
import nltk
sentence = "I love python"
tokens = nltk.word_tokenize(sentence)
pos_tags = nltk.pos_tag(tokens)
print nltk.ne_chunk(pos_tags, binary=True)
我发现 this question 与我的问题有关。不幸的是,我无法下载整个语料库,因为我在服务器上工作并且有很多内存限制。谁能指出我需要的特定文件,这样我就可以只下载那个文件而不是整个语料库?
(我正在使用 Python 2.7.6)
试试这些:
nltk.download("maxent_treebank_pos_tagger")
nltk.download("maxent_ne_chunker")
nltk.download("punkt")
前两个分别用于词性标记和命名实体。第三个你没有在你的代码示例中使用,但你将需要它用于 nltk.sent_tokenize()
,它将纯文本分解成句子。由于您将使用 POS 标签,因此我也会下载这些标签(它们很小):
nltk.download(["tagsets", "universal_tagset"])
如果您有一点 space,下载整个 "book" 合集将为您提供探索 NLTK 所需的一切。