如何使用gensim从受限词汇表中过滤掉语料库中的单词?

How to filter out words in a corpus from a constrained vocabulary with gensim?

我正在使用 gensim 进行主题建模。我使用

创建了一个语料库
wordDict = corpora.Dictionary(trimmedTextTokens)

gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens]

其中 trimmedTextTokens 是删除停用词的结果。现在我想从语料库中过滤掉不在受限或构造词汇列表中的术语。有任何想法吗?谢谢!!

假设您的限制词汇列表在一个名为 restrictedVocabularyList 的变量中,您可以这样做:

wordDict = corpora.Dictionary(trimmedTextTokens)

gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens if text in restrictedVocabularyList]