小批量中的 Scikit-learn tfidf 向量化器？

Question

我一直在尝试对大型语料库执行 tf-idf 启发式算法。

我可以迭代阅读文档，并调用

vectorizer.fit()

在每次迭代中？这是否只考虑了当前迭代，还是记住了之前的迭代？

谢谢！

Answer 1

您的问题的解决方案将取决于您的特定应用程序。您可以考虑 gensim 的 tfidf 实现，它更高效并且不需要像 this post 解释的那样将整个语料库保存在内存中。

Scikit-learn tfidf vectorizer in minibatches?