了解 Sklearn 中 Tfidfvectorizer 的矩阵输出

Question

我在解释 Tfidf 向量化器的矩阵输出时遇到问题。

鉴于

vectorizer = TfidfVectorizer(max_df=0.5, max_features=10000,
                         min_df=2, stop_words='english',
                         use_idf=True)


X_train_tfidf = vectorizer.fit_transform(X_train_raw)

如果我要查看 X_train_tfidf 的输出，我是否在查看结构如下的矩阵：

第 1 列对应文档 1，其元素是 10000 个特征的 tfidf 分数，第 2 列对应文档 2...等等？

Answer 1

假设您看到类似这样的输出：

(0, 18)       0.424688479366
(0, 6)        0.424688479366
(0, 4)        0.424688479366
(0, 14)       0.239262081323
(0, 17)       0.202366335916
(0, 5)        0.424688479366
(0, 1)        0.424688479366
(1, 17)       0.184426607226
(1, 8)        0.387039944282
(1, 15)       0.387039944282
(1, 0)        0.387039944282
(1, 2)        0.387039944282
(1, 13)       0.387039944282
(1, 7)        0.387039944282
(1, 11)       0.259205161463
(2, 14)       0.313686744222
(2, 17)       0.530628478217
(2, 9)        0.556791722552
(2, 16)       0.556791722552
(3, 14)       0.346483013718
(3, 17)       0.293053113789
(3, 11)       0.411875926253
(3, 10)       0.61500486583
(3, 3)        0.496182053366
(4, 14)       0.346483013718
(4, 17)       0.293053113789
(4, 11)       0.411875926253
(4, 3)        0.496182053366
(4, 12)       0.61500486583

假设一般形式：(A,B) C

A：文档索引 B：具体词向量索引 C：文档 A 中单词 B 的 TFIDF 得分

这是一个稀疏矩阵。它表示每个文档的词向量中所有非零值的tfidf分数。

了解 Sklearn 中 Tfidfvectorizer 的矩阵输出

Understanding the matrix output of Tfidfvectorizer in Sklearn

python

matrix

tf-idf

scikit-learn