小批量中的 Scikit-learn tfidf 向量化器?
Scikit-learn tfidf vectorizer in minibatches?
我一直在尝试对大型语料库执行 tf-idf 启发式算法。
我可以迭代阅读文档,并调用
vectorizer.fit()
在每次迭代中?这是否只考虑了当前迭代,还是记住了之前的迭代?
谢谢!
您的问题的解决方案将取决于您的特定应用程序。您可以考虑 gensim 的 tfidf 实现,它更高效并且不需要像 this post 解释的那样将整个语料库保存在内存中。
我一直在尝试对大型语料库执行 tf-idf 启发式算法。
我可以迭代阅读文档,并调用
vectorizer.fit()
在每次迭代中?这是否只考虑了当前迭代,还是记住了之前的迭代?
谢谢!
您的问题的解决方案将取决于您的特定应用程序。您可以考虑 gensim 的 tfidf 实现,它更高效并且不需要像 this post 解释的那样将整个语料库保存在内存中。