在 Python SGDClassifier 中保存 partial_fit 的多个实例之间的进度

Save progress between multiple instances of partial_fit in Python SGDClassifier

我已成功遵循 this 我自己的文本分类脚本的示例。

问题是我不想在 partial_fit 调用的循环中处理庞大但现有的数据集，就像他们在示例中所做的那样。我希望能够在数据可用时添加数据，即使我同时关闭了我的 python 脚本。

理想情况下，我想做这样的事情：

2015 年的某个时间：

model2015=partial_fit(dataset2015)

save_to_file(model2015)

关闭我的 python 脚本

2016 年的某个时候：

再次打开我的 python 脚本

load_from_file(model2015)

partial_fit（dataset2016合并model2015）

save_to_file(model2016)

2017 年的某个时候：

再次打开我的 python 脚本

等...

有什么方法可以在 scikit-learn 中做到这一点？或者在其他一些包中（也许是 Tensorflow）？

只需腌制您的模型并将其保存到磁盘。另一种方法是转储 .coef_ 和 .intercept_ 字段（这只是两个数组）并在调用 .fit

时将它们用作初始值设定项