编辑 NLTK 语料库
Editing the NLTK Corpus
除了nltk自带的语料外,我想用自己的语料来训练它,遵循相同的词性规则。如何找到它正在使用的语料库,以及如何添加我自己的语料库(另外,不作为替代)?
编辑: 这是我目前使用的代码:
inpy = raw_input("$")
text = nltk.word_tokenize(inpy)
d = nltk.pos_tag(text)
NLTK 带有大量不同的语料库。如果您更详细地指定要扩充的语料库,将会有所帮助。 NLTK 中主要的英文 POS 语料库是 Brown corpus. See also http://www.nltk.org/book/ch05.html as well as http://en.wikipedia.org/wiki/Brown_Corpus and http://www.nltk.org/nltk_data/
除了nltk自带的语料外,我想用自己的语料来训练它,遵循相同的词性规则。如何找到它正在使用的语料库,以及如何添加我自己的语料库(另外,不作为替代)?
编辑: 这是我目前使用的代码:
inpy = raw_input("$")
text = nltk.word_tokenize(inpy)
d = nltk.pos_tag(text)
NLTK 带有大量不同的语料库。如果您更详细地指定要扩充的语料库,将会有所帮助。 NLTK 中主要的英文 POS 语料库是 Brown corpus. See also http://www.nltk.org/book/ch05.html as well as http://en.wikipedia.org/wiki/Brown_Corpus and http://www.nltk.org/nltk_data/