NLTK 标注器从 txt 中读取

NLTK tagger reading from txt

我在 python 上使用 NLTK。我想从 txt 中读取使用默认值、unigram 和 pos 标记器。但是我没有这样做,因为 txt 没有特定的导入标签。例如在 class 中,我们使用准备好的语料库,如 brown 等。我的问题是如何使用标注器导入方法。最后,我想查看每个标记器的评估性能。

读取这样的文件:

f = open('your-file.txt', 'rU') # U is for Unicode
raw = f.read()
tokens = nltk.word_tokenize(raw)

获得标记化文本后,您可以继续对其进行标记,例如:

def_tagger = nltk.DefaultTagger('NN')
def_tagger.tag(tokens)

这将(作为示例)将每个标记标记为 NN。要对其进行评估,您需要手动为每个单词分配一个标签,然后:

def_tagger.evaluate(you_manual_tagged_sents)

这将 return 一个介于 0(非常差)和 1(完美匹配)之间的数字。