为什么当我传递词汇参数时 sklearn 的 TfidfVectorizer 返回一个空矩阵，而不是当我不传递时？

Question

我正在尝试使用以下代码获取一组文档的 tf-idf：

documents = ['iADV díltudNOUN iADV gaibidVERB gabálNOUN', 'iADV díthNOUN dérnumNOUN iADP foileNOUN', ...]
vocab = ['aADP', 'aDET', 'aPRON', 'achtSCONJ', 'amalSCONJ', 'arADP', 'arPRON', ...]

vectorizer = TfidfVectorizer(analyzer='word', token_pattern=r"(?u)\b[\wáéíóúↄḟṁṅæǽ⁊ɫ֊̃]+\b", vocabulary=vocab)
vectors = vectorizer.fit_transform(documents)
print(vectors)

当我这样做时，矩阵是空的。如果我改为 print([vectors])，我可以看到矩阵的形状，但其中没有数据。

[<42x79 sparse matrix of type '<class 'numpy.float64'>'
    with 0 stored elements in Compressed Sparse Row format>]

奇怪的是，当我删除 vocabulary=vocab 参数时，我可以获得文档中所有单词的 tf-idf，但是，我真的不希望所有单词都这样：

vectorizer = TfidfVectorizer(analyzer='word', token_pattern=r"(?u)\b[\wáéíóúↄḟṁṅæǽ⁊ɫ֊̃]+\b")
vectors = vectorizer.fit_transform(documents)
print(vectors)

  (0, 564)  0.09058331497564333
  (0, 313)  0.09058331497564333
  (0, 93)   0.08155482537999634
  (0, 165)  0.06268804803234075
  (0, 169)  0.09058331497564333
  ...

当我传递 vocabulary 参数时，是什么导致我的矩阵为空？我的 token_pattern 有问题吗？

Answer 1

问题来自默认参数 lowercase，它等于 True。因此，您的所有文本都转换为小写。如果您将词汇表更改为小写，它将起作用：

vocab=[v.lower() for v in vocab]

您还可以将参数 lowercase 更改为 False

为什么当我传递词汇参数时 sklearn 的 TfidfVectorizer 返回一个空矩阵，而不是当我不传递时？

Why is sklearn's TfidfVectorizer returning an empty matrix when I pass an argument for vocabulary, but not when I don't?

python

scikit-learn

tfidfvectorizer