结构化数据的小型数据集的迁移学习

Transfer Learning for small datasets of structured data

我希望针对与特定供应链领域中的费用批准相关的小型数据集构建的问题实施机器学习。通常标记的数据不可用

我想在一个数据集中构建模型,我已经标记了数据,然后使用在相似的上下文中开发的模型——其中的特征集非常相似,但不完全相同.期望这允许作为推荐的起点并在新上下文中收集标记数据。

我理解这是迁移学习的本质。我在这个领域读到的大多数例子都谈到了图像数据集——关于如何使用标准的基于树的分类算法在小数据集中利用它的任何指导

我真的不能和基于树的算法说话,我不知道如何用它们进行迁移学习。但是,对于深度学习模型,迁移学习的惯用方法是加载预训练模型,然后使用新数据重新训练数据集的最后一层,然后微调网络的其余部分。

如果您没有太多数据可以继续,您可能会考虑创建合成数据。

好的,对于基于树的算法,您可以按照您所说的去做:在一个数据集上训练树并将其应用于另一个类似的数据集。您需要做的就是更改第二棵树上的 terms/nodes。

例如,假设您有一个经过训练的决策树,用于过滤建筑公司的费用。您将彻底拒绝对工作靴的任何报销,因为工人应该自己提供。

您想在您的会计师事务所使用经过培训的树,因此您将该术语改为笔记本电脑,而不是工作靴,因为会计师应该自己购买。

说的有道理吗,对你有帮助吗?

raghu,我相信你在深度学习中说抽象层的时候是在寻找核方法。有多种 ML 算法支持核函数。使用内核函数,您也许可以做到;但使用内核函数可能比解决原始问题更复杂。我倾向于 Tdoggo 关于使用决策树的建议。

抱歉,我想添加评论,但他们不允许我,所以我发布了一个新答案。

经过一些研究,我们决定继续使用随机森林模型,直觉是原始模型中具有共同特征的树将构成决策的起点。

随着我们在新上下文中获得更多标记数据,我们将开始用包含 (a) 仅新特征和 (b) 新旧特征组合的新树替换原始树

这在初步试验中提供了合理的结果