Sklearn TFIDF 矢量器线程安全吗？

Question

我构建了一个 TfidfVectorizer 并将其适合我的数据集

tfidf = TfidfVectorizer(tokenizer=ner_tokenizer, stop_words='english')
tfidf.fit(documents)

我现在想在多个线程中执行 tfidf.transform()。这样做安全吗？

Answer 1

据我所知transform只读取self但不修改它，所以它应该是线程安全的。

transform() 调用 TfidfTransformer.transform()、CountVectorizer.transform()、check_is_fitted() 并间接调用 CountVectorizer._validate_vocabulary()、CountVectorizer._check_vocabulary()、CountVectorizer._count_vocab() 和 normalize() 和一些更深层次的不修改。可能还有一些神奇的事情在发生，但我找不到任何东西。

Sklearn TFIDF 矢量器线程安全吗？

Is Sklearn TFIDF vectorizer thread safe?

python

scikit-learn

tfidfvectorizer