NN VBD IN DT NNS RB 在 NLTK 中是什么意思?
What does NN VBD IN DT NNS RB means in NLTK?
当我分块文本时,我在输出中得到很多代码,比如
NN, VBD, IN, DT, NNS, RB
。
某处是否有记录的列表告诉我这些的含义?
我试过谷歌搜索 nltk chunk code
nltk chunk grammar
nltk chunk tokens
.
但是我找不到任何文档来解释这些代码的含义。
您看到的标签不是分块的结果,而是分块之前发生的 POS 标记。这是 Penn Treebank 标签集,参见 https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
>>> from nltk import word_tokenize, pos_tag, ne_chunk
>>> sent = "This is a Foo Bar sentence."
# POS tag.
>>> nltk.pos_tag(word_tokenize(sent))
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('Foo', 'NNP'), ('Bar', 'NNP'), ('sentence', 'NN'), ('.', '.')]
>>> tagged_sent = nltk.pos_tag(word_tokenize(sent))
# Chunk.
>>> ne_chunk(tagged_sent)
Tree('S', [('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]), ('sentence', 'NN'), ('.', '.')])
要获取块,请在分块输出中查找子树。从上面的输出中,Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')])
表示块。
本教程站点对解释 NLTK 中的分块过程非常有帮助:http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf。
正如上面 Alvas 所说,这些标签是词性,它告诉 word/phrase 是否是名词短语、副词、限定词、动词等...
这里是POS Tag详情,您可以参考。
Chunking recovers the phrased from the Part of speech tags
您可以参考此 link 阅读有关分块的内容。
虽然上面的链接五花八门。但希望这仍然对某人有帮助,添加了一些其他链接遗漏的内容。
CC: 并列连词
CD:基数
DT:限定词
EX: 存在
FW:外来词
IN: 介词或从属连词
JJ: 形容词
VP:动词短语
JJR: 形容词,比较级
JJS: 形容词,最高级
LS: 列表项标记
MD: 模态
NN: 名词,单数或质量
NNS:名词,复数
PP: 介词短语
NNP: 专有名词,单数短语
NNPS: 专有名词,复数
PDT:预限定符
POS:所有格结尾
PRP: 人称代词短语
PRP: 物主代词短语
RB: 副词
RBR: 副词,比较级
RBS:副词,最高级
RP: 粒子
S:简单的陈述句
SBAR:由(可能为空)从属连词引入的从句
SBARQ:由 wh 词或 wh 短语引入的直接问题。
SINV:倒置陈述句,即主语跟在时态动词或情态后面。
SQ:倒转 yes/no 问题,或 wh 问题的主要子句,在 SBARQ 中的 wh 短语之后。
SYM: 符号
VBD:动词,过去时
VBG:动词、动名词或现在分词
VBN: 动词,过去分词
VBP: 动词,非第三人称单数现在时
VBZ: 动词,第三人称单数现在时
WDT:Wh-确定器
WP: 代词
WP:所有格代词
WRB: Wh-副词
当我分块文本时,我在输出中得到很多代码,比如
NN, VBD, IN, DT, NNS, RB
。
某处是否有记录的列表告诉我这些的含义?
我试过谷歌搜索 nltk chunk code
nltk chunk grammar
nltk chunk tokens
.
但是我找不到任何文档来解释这些代码的含义。
您看到的标签不是分块的结果,而是分块之前发生的 POS 标记。这是 Penn Treebank 标签集,参见 https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
>>> from nltk import word_tokenize, pos_tag, ne_chunk
>>> sent = "This is a Foo Bar sentence."
# POS tag.
>>> nltk.pos_tag(word_tokenize(sent))
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('Foo', 'NNP'), ('Bar', 'NNP'), ('sentence', 'NN'), ('.', '.')]
>>> tagged_sent = nltk.pos_tag(word_tokenize(sent))
# Chunk.
>>> ne_chunk(tagged_sent)
Tree('S', [('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]), ('sentence', 'NN'), ('.', '.')])
要获取块,请在分块输出中查找子树。从上面的输出中,Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')])
表示块。
本教程站点对解释 NLTK 中的分块过程非常有帮助:http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf。
正如上面 Alvas 所说,这些标签是词性,它告诉 word/phrase 是否是名词短语、副词、限定词、动词等...
这里是POS Tag详情,您可以参考。
Chunking recovers the phrased from the Part of speech tags
您可以参考此 link 阅读有关分块的内容。
虽然上面的链接五花八门。但希望这仍然对某人有帮助,添加了一些其他链接遗漏的内容。
CC: 并列连词
CD:基数
DT:限定词
EX: 存在
FW:外来词
IN: 介词或从属连词
JJ: 形容词
VP:动词短语
JJR: 形容词,比较级
JJS: 形容词,最高级
LS: 列表项标记
MD: 模态
NN: 名词,单数或质量
NNS:名词,复数
PP: 介词短语
NNP: 专有名词,单数短语
NNPS: 专有名词,复数
PDT:预限定符
POS:所有格结尾
PRP: 人称代词短语
PRP: 物主代词短语
RB: 副词
RBR: 副词,比较级
RBS:副词,最高级
RP: 粒子
S:简单的陈述句
SBAR:由(可能为空)从属连词引入的从句
SBARQ:由 wh 词或 wh 短语引入的直接问题。
SINV:倒置陈述句,即主语跟在时态动词或情态后面。
SQ:倒转 yes/no 问题,或 wh 问题的主要子句,在 SBARQ 中的 wh 短语之后。
SYM: 符号
VBD:动词,过去时
VBG:动词、动名词或现在分词
VBN: 动词,过去分词
VBP: 动词,非第三人称单数现在时
VBZ: 动词,第三人称单数现在时
WDT:Wh-确定器
WP: 代词
WP:所有格代词
WRB: Wh-副词