在 NLTK 语料库中查找四克
Finding Four Grams in an NLTK Corpus
我知道当你导入所有你能做的事情时,你会认为 nltk.bigrams(nltk.corpus.brown.words()
是双字母组,nltk.trigrams(nltk.corpus.brown.words()
是三字母组,但是你如何做四克?
我见过其他方法,但他们都是用“字符串”或他们组成的文本来完成的。你是怎么做到 nltk.corpus.brown 的?您是否必须将其转换为字符串?如果是,如何转换?
要获取 n 个项目,您可以使用 nltk.ngrams()
和要获取的数字作为第二个参数。
在您的示例中,要获得四克,您可以使用 nltk.ngrams(nltk.corpus.brown.words(), 4)
我知道当你导入所有你能做的事情时,你会认为 nltk.bigrams(nltk.corpus.brown.words()
是双字母组,nltk.trigrams(nltk.corpus.brown.words()
是三字母组,但是你如何做四克?
我见过其他方法,但他们都是用“字符串”或他们组成的文本来完成的。你是怎么做到 nltk.corpus.brown 的?您是否必须将其转换为字符串?如果是,如何转换?
要获取 n 个项目,您可以使用 nltk.ngrams()
和要获取的数字作为第二个参数。
在您的示例中,要获得四克,您可以使用 nltk.ngrams(nltk.corpus.brown.words(), 4)