具有先前预处理数据的 TFIDF

Question

我正在尝试一个接一个地使用几种信息检索技术。对于每一个，我都希望以完全相同的方式对文本进行预处理。我的预处理文本以单词列表的形式提供。不幸的是，scikit-learns TfidfVectorizer 似乎只接受字符串列表。目前我是这样做的（当然效率很低）：

from sklearn.feature_extraction.text import TfidfVectorizer

train_data = [["the","sun","is","bright"],["blue","is","the","sky"]]

tfidf = TfidfVectorizer(tokenizer=lambda i:i.split(","))
converted_train = map(lambda i:",".join(i), train_data)
result_train = tfidf.fit_transform(converted_train)

有没有办法直接在这种预处理后的数据上使用scikit-learns TfidfVectorizer进行信息检索呢？

如果不是，是否可以让 TfidfVectorizer 进行预处理并在之后重用其预处理后的数据？

Answer 1

我自己找到了答案。我的问题是，我只是使用 None 作为 TfidfVectorizer 的分词器：

tfidf = TfidfVectorizer(tokenizer=None)

您必须改为使用仅转发数据的分词器。您还必须确保矢量化器不会将列表转换为小写（这不起作用）。一个工作示例是：

from sklearn.feature_extraction.text import TfidfVectorizer

train_data = [["the","sun","is","bright"],["blue","is","the","sky"]]

tfidf = TfidfVectorizer(tokenizer=lambda i:i, lowercase=False)
result_train = tfidf.fit_transform(train_data)

具有先前预处理数据的 TFIDF

TFIDF with previously preprocessed data

python

tf-idf

scikit-learn