在 NLTK 语料库中查找四克

Finding Four Grams in an NLTK Corpus

我知道当你导入所有你能做的事情时,你会认为 nltk.bigrams(nltk.corpus.brown.words() 是双字母组,nltk.trigrams(nltk.corpus.brown.words() 是三字母组,但是你如何做四克?

我见过其他方法,但他们都是用“字符串”或他们组成的文本来完成的。你是怎么做到 nltk.corpus.brown 的?您是否必须将其转换为字符串?如果是,如何转换?

要获取 n 个项目,您可以使用 nltk.ngrams() 和要获取的数字作为第二个参数。

在您的示例中,要获得四克,您可以使用 nltk.ngrams(nltk.corpus.brown.words(), 4)