使用 nltk pos 标记器时出现错误的 zip 文件错误

Question

我正在尝试使用 NLTK 词性标注器，但收到“zipfile.BadZipfile：文件不是 zip 文件”错误。

错误来自这段代码：

import nltk
sentence = "I love python"
tokens = nltk.word_tokenize(sentence)
pos_tags = nltk.pos_tag(tokens)
print nltk.ne_chunk(pos_tags, binary=True)

我发现 this question 与我的问题有关。不幸的是，我无法下载整个语料库，因为我在服务器上工作并且有很多内存限制。谁能指出我需要的特定文件，这样我就可以只下载那个文件而不是整个语料库？

（我正在使用 Python 2.7.6）

Answer 1

试试这些：

nltk.download("maxent_treebank_pos_tagger")
nltk.download("maxent_ne_chunker")
nltk.download("punkt")

前两个分别用于词性标记和命名实体。第三个你没有在你的代码示例中使用，但你将需要它用于 nltk.sent_tokenize()，它将纯文本分解成句子。由于您将使用 POS 标签，因此我也会下载这些标签（它们很小）：

nltk.download(["tagsets", "universal_tagset"])

如果您有一点 space，下载整个 "book" 合集将为您提供探索 NLTK 所需的一切。

使用 nltk pos 标记器时出现错误的 zip 文件错误

Bad zip file error while using nltk pos tagger

python

nltk