在 Python SGDClassifier 中保存 partial_fit 的多个实例之间的进度

Save progress between multiple instances of partial_fit in Python SGDClassifier

我已成功遵循 this 我自己的文本分类脚本的示例。

问题是我不想在 partial_fit 调用的循环中处理庞大但现有的数据集,就像他们在示例中所做的那样。我希望能够在数据可用时添加数据,即使我同时关闭了我的 python 脚本。

理想情况下,我想做这样的事情:

2015 年的某个时间:

model2015=partial_fit(dataset2015)

save_to_file(model2015)

关闭我的 python 脚本

2016 年的某个时候:

再次打开我的 python 脚本

load_from_file(model2015)

partial_fit(dataset2016合并model2015)

save_to_file(model2016)

2017 年的某个时候:

再次打开我的 python 脚本

等...

有什么方法可以在 scikit-learn 中做到这一点?或者在其他一些包中(也许是 Tensorflow)?

只需腌制您的模型并将其保存到磁盘。另一种方法是转储 .coef_ 和 .intercept_ 字段(这只是两个数组)并在调用 .fit

时将它们用作初始值设定项