NN VBD IN DT NNS RB 在 NLTK 中是什么意思？

Question

当我分块文本时，我在输出中得到很多代码，比如 NN, VBD, IN, DT, NNS, RB。某处是否有记录的列表告诉我这些的含义？我试过谷歌搜索 nltk chunk code nltk chunk grammar nltk chunk tokens.

但是我找不到任何文档来解释这些代码的含义。

Answer 1

您看到的标签不是分块的结果，而是分块之前发生的 POS 标记。这是 Penn Treebank 标签集，参见 https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

>>> from nltk import word_tokenize, pos_tag, ne_chunk
>>> sent = "This is a Foo Bar sentence."
# POS tag.
>>> nltk.pos_tag(word_tokenize(sent))
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('Foo', 'NNP'), ('Bar', 'NNP'), ('sentence', 'NN'), ('.', '.')]
>>> tagged_sent = nltk.pos_tag(word_tokenize(sent))
# Chunk.
>>> ne_chunk(tagged_sent)
Tree('S', [('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]), ('sentence', 'NN'), ('.', '.')])

要获取块，请在分块输出中查找子树。从上面的输出中，Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]) 表示块。

本教程站点对解释 NLTK 中的分块过程非常有帮助：http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf。

官方文档见http://www.nltk.org/howto/chunk.html

Answer 2

正如上面 Alvas 所说，这些标签是词性，它告诉 word/phrase 是否是名词短语、副词、限定词、动词等...

这里是POS Tag详情，您可以参考。

Chunking recovers the phrased from the Part of speech tags

您可以参考此 link 阅读有关分块的内容。

Answer 3

虽然上面的链接五花八门。但希望这仍然对某人有帮助，添加了一些其他链接遗漏的内容。

CC: 并列连词

CD:基数

DT：限定词

EX: 存在

FW:外来词

IN: 介词或从属连词

JJ: 形容词

VP：动词短语

JJR: 形容词，比较级

JJS: 形容词，最高级

LS: 列表项标记

MD: 模态

NN: 名词，单数或质量

NNS：名词，复数

PP: 介词短语

NNP: 专有名词，单数短语

NNPS: 专有名词，复数

PDT：预限定符

POS：所有格结尾

PRP: 人称代词短语

PRP: 物主代词短语

RB: 副词

RBR: 副词，比较级

RBS：副词，最高级

RP: 粒子

S：简单的陈述句

SBAR：由（可能为空）从属连词引入的从句

SBARQ：由 wh 词或 wh 短语引入的直接问题。

SINV：倒置陈述句，即主语跟在时态动词或情态后面。

SQ：倒转 yes/no 问题，或 wh 问题的主要子句，在 SBARQ 中的 wh 短语之后。

SYM: 符号

VBD：动词，过去时

VBG：动词、动名词或现在分词

VBN: 动词，过去分词

VBP: 动词，非第三人称单数现在时

VBZ: 动词，第三人称单数现在时

WDT：Wh-确定器

WP: 代词

WP：所有格代词

WRB: Wh-副词

NN VBD IN DT NNS RB 在 NLTK 中是什么意思？

What does NN VBD IN DT NNS RB means in NLTK?

python

nlp

text-parsing

nltk

pos-tagger