使用标记+预测数据重新训练生产模型？

Retrain production model with labeled + predicted data?

假设我目前正在使用两种不同的 class 进行文本 class 化。我现在拥有的标记数据是我手动 class 确定为 X 或 Y 的数据。数据集有点大，数据集大小为 7000（3500 X，3500 Y）。

问题是我有 2000 个目前没有标记，但它们属于 X 或 Y（没有其他 class）。

我的模型的准确率、召回率和 f1 分数大约在 95-98 之间，具体取决于我使用的模型。

目标是不再需要 X 或 Y 的这种手动分类，让 ML 模型为我做（当然它有时会出错，但没关系）。

问题是，当我以后重新训练我的模型时，我可以将模型的预测与手动分类的数据一起用于训练和验证吗？

我知道这是一个很难的问题，因为你没有所有的信息等等。但我想我不是唯一一个想要用 ML 替换当前手动完成的东西的人模型.

我认为这绝对不是一个好主意。通过这样做，您基本上只会改进模型的 "confidence" 预测是正确的。如果您添加的文档与训练集中的文档有很大不同怎么办？我宁愿建议以下两件事之一（虽然看起来你的模型已经有很好的性能）：

如果您可以手动标记更多文档，也许您可以想出要标记的基本原理。例如，您可以手动标记那些预测概率较低的地方（您训练的分类器对预测的准确性不是很"confident"）
如果您有大量未标记的数据并且您希望它们的行为与您的训练数据不同，那么可能值得检查半监督学习。这将同时利用标记数据和未标记数据的分布。