如何使用gensim从受限词汇表中过滤掉语料库中的单词?
How to filter out words in a corpus from a constrained vocabulary with gensim?
我正在使用 gensim 进行主题建模。我使用
创建了一个语料库
wordDict = corpora.Dictionary(trimmedTextTokens)
gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens]
其中 trimmedTextTokens 是删除停用词的结果。现在我想从语料库中过滤掉不在受限或构造词汇列表中的术语。有任何想法吗?谢谢!!
假设您的限制词汇列表在一个名为 restrictedVocabularyList
的变量中,您可以这样做:
wordDict = corpora.Dictionary(trimmedTextTokens)
gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens if text in restrictedVocabularyList]
我正在使用 gensim 进行主题建模。我使用
创建了一个语料库wordDict = corpora.Dictionary(trimmedTextTokens)
gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens]
其中 trimmedTextTokens 是删除停用词的结果。现在我想从语料库中过滤掉不在受限或构造词汇列表中的术语。有任何想法吗?谢谢!!
假设您的限制词汇列表在一个名为 restrictedVocabularyList
的变量中,您可以这样做:
wordDict = corpora.Dictionary(trimmedTextTokens)
gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens if text in restrictedVocabularyList]