NLTK 标注器从 txt 中读取

Question

我在 python 上使用 NLTK。我想从 txt 中读取使用默认值、unigram 和 pos 标记器。但是我没有这样做，因为 txt 没有特定的导入标签。例如在 class 中，我们使用准备好的语料库，如 brown 等。我的问题是如何使用标注器导入方法。最后，我想查看每个标记器的评估性能。

Answer 1

读取这样的文件：

f = open('your-file.txt', 'rU') # U is for Unicode
raw = f.read()
tokens = nltk.word_tokenize(raw)

获得标记化文本后，您可以继续对其进行标记，例如：

def_tagger = nltk.DefaultTagger('NN')
def_tagger.tag(tokens)

这将（作为示例）将每个标记标记为 NN。要对其进行评估，您需要手动为每个单词分配一个标签，然后：

def_tagger.evaluate(you_manual_tagged_sents)

这将 return 一个介于 0（非常差）和 1（完美匹配）之间的数字。

NLTK tagger reading from txt