何时使用有监督或无监督学习?

When to use supervised or unsupervised learning?

谢谢

  1. 如果您有标记的数据集,则可以同时使用两者。如果你没有标签,你只能使用无监督学习。

  2. 这不是 "better" 的问题。这是你想要达到什么的问题。例如。聚类数据通常是不受监督的——您希望算法告诉您数据的结构。分类是有监督的,因为你需要教你的算法什么是什么,以便对看不见的数据进行预测。

  3. 见1.

旁注:这些都是非常广泛的问题。我建议您熟悉一些 ML 基础知识。

这里是不错的播客示例:http://ocdevel.com/podcasts/machine-learning

Jake VanderPlas 的好书/笔记本:http://nbviewer.jupyter.org/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/Index.ipynb

取决于您的需要。如果您有一组现有数据,包括您希望预测的目标值(标签),那么您可能需要 supervised learning(例如,是真还是假;或者此数据代表鱼、猫或狗?简单地说——你已经有了正确答案的例子,你只是告诉算法要预测什么)。您还需要区分是否需要 classificationregression。分类是当您需要将预测值分类为给定 类 时(例如,这个人是否可能患上糖尿病 - 是或否?换句话说 - 离散值),而回归是当您需要预测连续值时(1,2、4.56、12.99、23 等)。有许多监督学习算法可供选择(k-最近邻、朴素贝叶斯、SVN、ridge..)

相反 - 如果您没有标签(或目标值),请使用 unsupervised learning。您只是试图在数据集群出现时对其进行识别。例如。 k-Means、DBScan、谱聚类..)

所以这取决于并且没有确切的答案,但一般来说你需要:

  1. 收集并查看您的数据。您需要了解您的数据,然后才能决定选择哪种方式或哪种算法最适合您的需求。

  2. 训练你的算法。确保拥有干净且良好的数据,并记住在无监督学习的情况下,您可以跳过此步骤,因为您没有目标值。你马上测试你的算法

  3. 测试你的算法。 运行 看看你的算法表现如何。在监督学习的情况下,您可以使用一些训练数据来评估您的算法的表现。

网上有很多关于机器学习的书籍,也有很多关于该主题的在线讲座。

取决于您拥有的数据集。 如果您手中有目标特征,那么您应该进行监督学习。如果你没有那么这是一个无监督的问题。 监督就像用例子教模型。无监督学习主要用于对相似数据进行分组,在特征工程中占有重要地位。 谢谢..