如何使用 NLTK 获取 python 中句子列表的通用标记模式

Question

这里我有一个 sentences.With NLTK 列表，我可以标记句子并获取该句子的标记模式。因此，像这样我可以获得整个 list.But 的标记模式我想要的是识别大多数句子获得的常见标记模式 matched.For 示例：

你今天的计划是什么

tag pattern : {<WP><VBZ><PRP$><NN><NN>}

所以上面三个句子的常用标记模式（结合正则表达式标记器）是：

{<W.+><V.+><PRP.?>?<NN>+} - One "Wh" word,one verb,zero or one pronoun,one or many nouns

所以我想将句子的标记模式概括为常见的ones.This是我想做的事情..

有人可以告诉我该怎么做吗？

Answer 1

听起来您正在寻找一个匹配您数据中所有不同标签序列的正则表达式（带有量词）。虽然这不是一个简单的问题，我怀疑您的目标是找到一种模式来捕获合法句子的序列，对吗？

如果是这样，正则表达式（和一般的有限状态方法）本质上是不适合这项工作的工具。为了开始描述你的句子集合，你需要查看上下文无关语法。看一下 NLTK 关于该主题的资料。

How to get common tag pattern for sentences list in python with NLTK