小批量中的 Scikit-learn tfidf 向量化器?

Scikit-learn tfidf vectorizer in minibatches?

我一直在尝试对大型语料库执行 tf-idf 启发式算法。

我可以迭代阅读文档,并调用

vectorizer.fit()

在每次迭代中?这是否只考虑了当前迭代,还是记住了之前的迭代?

谢谢!

您的问题的解决方案将取决于您的特定应用程序。您可以考虑 gensim 的 tfidf 实现,它更高效并且不需要像 this post 解释的那样将整个语料库保存在内存中。