TF-IDF 如何只获取单词列表

TF-IDF how to takes only a list of words

我知道我们可以在 tf-idf 中使用停用词列表,但是有没有办法只使用一个单词列表而忽略其他单词?
例如,这里我声明了一个停用词列表:
vectorizer = TfidfVectorizer(stop_words="english")
如果我只想在句子中考虑 catdog,我想要这样的东西:
vectorizer = TfidfVectorizer(keep_words=["cat", "dog"])
我的目标是只考虑特定的词来进行文本聚类 ?
有解决办法吗?

是的。 假设你有一个单词数组

words = ['you','me','we']
TfidfVectorizer(vocabulary=words)

您可以使用词汇表参数仅传递选定的单词。