NN VBD IN DT NNS RB 在 NLTK 中是什么意思?

What does NN VBD IN DT NNS RB means in NLTK?

当我分块文本时,我在输出中得到很多代码,比如 NN, VBD, IN, DT, NNS, RB。 某处是否有记录的列表告诉我这些的含义? 我试过谷歌搜索 nltk chunk code nltk chunk grammar nltk chunk tokens.

但是我找不到任何文档来解释这些代码的含义。

您看到的标签不是分块的结果,而是分块之前发生的 POS 标记。这是 Penn Treebank 标签集,参见 https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

>>> from nltk import word_tokenize, pos_tag, ne_chunk
>>> sent = "This is a Foo Bar sentence."
# POS tag.
>>> nltk.pos_tag(word_tokenize(sent))
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('Foo', 'NNP'), ('Bar', 'NNP'), ('sentence', 'NN'), ('.', '.')]
>>> tagged_sent = nltk.pos_tag(word_tokenize(sent))
# Chunk.
>>> ne_chunk(tagged_sent)
Tree('S', [('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]), ('sentence', 'NN'), ('.', '.')])

要获取块,请在分块输出中查找子树。从上面的输出中,Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]) 表示块。

本教程站点对解释 NLTK 中的分块过程非常有帮助:http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf

官方文档见http://www.nltk.org/howto/chunk.html

正如上面 Alvas 所说,这些标签是词性,它告诉 word/phrase 是否是名词短语、副词、限定词、动词等...

这里是POS Tag详情,您可以参考。

Chunking recovers the phrased from the Part of speech tags

您可以参考此 link 阅读有关分块的内容。

虽然上面的链接五花八门。但希望这仍然对某人有帮助,添加了一些其他链接遗漏的内容。

CC: 并列连词

CD:基数

DT:限定词

EX: 存在

FW:外来词

IN: 介词或从属连词

JJ: 形容词

VP:动词短语

JJR: 形容词,比较级

JJS: 形容词,最高级

LS: 列表项标记

MD: 模态

NN: 名词,单数或质量

NNS:名词,复数

PP: 介词短语

NNP: 专有名词,单数短语

NNPS: 专有名词,复数

PDT:预限定符

POS:所有格结尾

PRP: 人称代词短语

PRP: 物主代词短语

RB: 副词

RBR: 副词,比较级

RBS:副词,最高级

RP: 粒子

S:简单的陈述句

SBAR:由(可能为空)从属连词引入的从句

SBARQ:由 wh 词或 wh 短语引入的直接问题。

SINV:倒置陈述句,即主语跟在时态动词或情态后面。

SQ:倒转 yes/no 问题,或 wh 问题的主要子句,在 SBARQ 中的 wh 短语之后。

SYM: 符号

VBD:动词,过去时

VBG:动词、动名词或现在分词

VBN: 动词,过去分词

VBP: 动词,非第三人称单数现在时

VBZ: 动词,第三人称单数现在时

WDT:Wh-确定器

WP: 代词

WP:所有格代词

WRB: Wh-副词