能够切换数据集的随机森林算法
Random forest algorithms able to switch data sets
我很好奇是否有人对随机森林进行了研究,这种随机森林以一种允许单一算法在多个不同数据集中查找模式并使用的方式将无监督学习与监督学习相结合。我用谷歌搜索了所有可能的方法来寻找这方面的研究,但一无所获。谁能指出我正确的方向?
注意:我已经在数据科学论坛上问过这个问题,但它基本上是一个死论坛所以我来了。
(同时阅读评论并将内容合并到我的回答中)
从我在字里行间读到的内容是,您想在迁移学习设置中使用深度网络。但是,这不会基于决策树。
http://jmlr.csail.mit.edu/proceedings/papers/v27/mesnil12a/mesnil12a.pdf
你的问题有很多要素:
1.) 机器学习算法通常不关心数据集的来源。所以基本上你可以给学习算法提供 20 个不同的数据集,它会使用所有的数据集。但是,数据应该具有相同的基本概念(迁移学习案例除外,请参见下文)。这意味着:如果您将 cats/dogs 数据与账单数据结合起来,这将不起作用或使算法变得更加困难。至少所有输入特征需要相同(存在例外),例如,很难将图像与文本结合起来。
2.) labeled/unlabeled:两个重要的术语:数据集是一组具有固定维数的数据点。数据点 i 可能被描述为 {Xi1,....Xin} 其中每个 Xi 可能例如是一个像素。标签 Yi 来自另一个域,例如猫和狗
3.) 无监督学习 没有任何标签的数据。 (我直觉这不是你想要的。
4.) semi-supervised 学习:这个想法基本上是将有标签的数据与没有标签的数据结合起来。基本上你有一组标记为猫和狗的图像 {Xi1,..,Xin,Yi} 和第二组包含带有 cats/dogs 但没有标签的图像 {Xj1,..,Xjn}。该算法可以使用此信息来构建更好的分类器,因为未标记的数据提供了有关图像总体外观的信息。
3.) 迁移学习(我认为这最接近你想要的)。这个想法是你提供一个猫和狗的数据集并学习一个分类器。之后你想用 cats/dogs/hamster 的图像训练分类器。训练不需要从头开始,但可以使用 cats/dogs 分类器收敛得更快
4.) 特征生成 / 特征构建 这个想法是算法学习像 "eyes" 这样的特征。下一步将使用此功能来学习分类器。我主要是在 深度学习 的背景下意识到这一点的。算法在第一步中学习边缘等概念,并构建越来越复杂的特征,如猫不宽容的脸,它可以描述诸如“大象上的人”之类的东西。这与迁移学习相结合可能就是你想要的。无论有多深除了少数例外,学习基于神经网络。
5.) 离群值检测 您提供了一个 cats/dogs 的数据集作为已知图像。当您提供 cats/dogs/hamster 分类器时。分类器告诉你它从来没有见过像仓鼠这样的东西。
6.) 主动学习 这个想法是你没有事先为所有的例子(数据点)提供标签,但是算法要求你标记某些数据点.这样你需要标记的数据就会少得多。
我很好奇是否有人对随机森林进行了研究,这种随机森林以一种允许单一算法在多个不同数据集中查找模式并使用的方式将无监督学习与监督学习相结合。我用谷歌搜索了所有可能的方法来寻找这方面的研究,但一无所获。谁能指出我正确的方向?
注意:我已经在数据科学论坛上问过这个问题,但它基本上是一个死论坛所以我来了。
(同时阅读评论并将内容合并到我的回答中)
从我在字里行间读到的内容是,您想在迁移学习设置中使用深度网络。但是,这不会基于决策树。 http://jmlr.csail.mit.edu/proceedings/papers/v27/mesnil12a/mesnil12a.pdf
你的问题有很多要素:
1.) 机器学习算法通常不关心数据集的来源。所以基本上你可以给学习算法提供 20 个不同的数据集,它会使用所有的数据集。但是,数据应该具有相同的基本概念(迁移学习案例除外,请参见下文)。这意味着:如果您将 cats/dogs 数据与账单数据结合起来,这将不起作用或使算法变得更加困难。至少所有输入特征需要相同(存在例外),例如,很难将图像与文本结合起来。
2.) labeled/unlabeled:两个重要的术语:数据集是一组具有固定维数的数据点。数据点 i 可能被描述为 {Xi1,....Xin} 其中每个 Xi 可能例如是一个像素。标签 Yi 来自另一个域,例如猫和狗
3.) 无监督学习 没有任何标签的数据。 (我直觉这不是你想要的。
4.) semi-supervised 学习:这个想法基本上是将有标签的数据与没有标签的数据结合起来。基本上你有一组标记为猫和狗的图像 {Xi1,..,Xin,Yi} 和第二组包含带有 cats/dogs 但没有标签的图像 {Xj1,..,Xjn}。该算法可以使用此信息来构建更好的分类器,因为未标记的数据提供了有关图像总体外观的信息。
3.) 迁移学习(我认为这最接近你想要的)。这个想法是你提供一个猫和狗的数据集并学习一个分类器。之后你想用 cats/dogs/hamster 的图像训练分类器。训练不需要从头开始,但可以使用 cats/dogs 分类器收敛得更快
4.) 特征生成 / 特征构建 这个想法是算法学习像 "eyes" 这样的特征。下一步将使用此功能来学习分类器。我主要是在 深度学习 的背景下意识到这一点的。算法在第一步中学习边缘等概念,并构建越来越复杂的特征,如猫不宽容的脸,它可以描述诸如“大象上的人”之类的东西。这与迁移学习相结合可能就是你想要的。无论有多深除了少数例外,学习基于神经网络。
5.) 离群值检测 您提供了一个 cats/dogs 的数据集作为已知图像。当您提供 cats/dogs/hamster 分类器时。分类器告诉你它从来没有见过像仓鼠这样的东西。
6.) 主动学习 这个想法是你没有事先为所有的例子(数据点)提供标签,但是算法要求你标记某些数据点.这样你需要标记的数据就会少得多。