如何从原始语料库中获取特定范围的单词?
How to get specific ranged words from raw corpus?
import nltk
import nltk.data
nltk.corpus.brown
y= nltk.corpus.brown.raw()
print(y)
当我执行 print(y)
时,它会向我显示该语料库中的所有原始数据,
但我只想从这个原始语料库中获取 10,000
个单词。
我怎样才能做到这一点?
你可以这样做:
import random
words = nltk.corpus.brown.words()
random_words = random.sample(words, 10000)
import nltk
import nltk.data
nltk.corpus.brown
y= nltk.corpus.brown.raw()
print(y)
当我执行 print(y)
时,它会向我显示该语料库中的所有原始数据,
但我只想从这个原始语料库中获取 10,000
个单词。
我怎样才能做到这一点?
你可以这样做:
import random
words = nltk.corpus.brown.words()
random_words = random.sample(words, 10000)