机器学习的真实例子?
Real world examples of Machine Learning?
最近我在 Coursera 上了 Andrew Ng 教授的机器学习课程。完成本课程后,我了解了机器学习算法的基础知识,但我有以下问题:
在哪里可以找到真实世界的机器学习用例示例?
Industry/Production for Machine
使用了哪些工具或框架
学习项目?
如何在生产中使用或部署机器学习模型?
如何成为数据科学家?或者我接下来应该做什么?
任何建议、书籍、课程或教程链接将不胜感激。
恭喜你完成了 Andrew Ng 的机器学习课程,很久以前我也完成了这门很棒的课程。
不管怎样,所以我会一一回答你的问题,虽然有几个问题是相互关联的。
Q-1) 我在哪里可以找到真实世界机器学习用例示例?
您可以通过以下几个链接找到机器学习与实际用例的教程:
机器学习示例 Scikit 学习:http://scikit-learn.org/stable/tutorial/basic/tutorial.html
机器学习教程 H20:https://github.com/h2oai/h2o-tutorials
Sagemaker 机器学习和深度学习示例:https://github.com/awslabs/amazon-sagemaker-examples
Q-2) Industry/Production for Machine使用了哪些工具或框架
学习项目?
工业级使用了各种各样的工具或框架,例如:
机器学习:
- R(现在学术界多用)
- Python(Sci-kit学习)
- 图形实验室
- Apache Mahout
- Spark MLlib
- H20
深度学习:
- Tensorflow 和 Keras
- Mxnet
- 火炬
- DeepLearning4j
- Analytics Zoo(主要用于使用spark进行大数据深度学习)
虽然 R、Scikit learn、GraphLab 在单机上工作得很好,并且是数据科学家或机器学习从业者中最受欢迎的选择,但是 Mahout、H20 和最近的 Spark (MLlib) 在这个大时代中获得了很多人气数据,您想在单机无法容纳的大型数据集上进行机器学习。
此外,还有一些其他工具,如 Weka、Rapid Miner,用于基于 GUI 的机器学习工作流程。
此工具或框架的选择实际上取决于项目要求、团队成员对 tool/language 的了解、开发的难易程度和部署的可扩展性等因素。
Q-3) 如何在生产中使用或部署机器学习模型?
在生产中,您必须首先构建一个模型,验证和评估该模型,然后该模型最终部署为 web/rest 服务以供其他 applications/services 使用。部署机器学习模型取决于很多因素,例如-
- 模型是离线训练的吗?或者您正在部署在线学习模型?
- 您多久重新训练一次您的模型?
- 您将如何测试新版本的模型? - A/B 测试或 Bandit 变体。
- 连同其他通用事物 - 延迟、吞吐量、数据 input/output 格式等
有一些基于云的机器学习服务提供商,如 Azure ML(https://studio.azureml.net/) BigML(https://bigml.com/) 等,您可以在其中上传您的数据集,进行一些数据处理,训练|验证|评估您的机器学习模型,然后最终将其部署为云中的 Web 服务。
现在所有主要的云平台(aws、googlecloud、azure)都为您提供机器学习平台,您可以在其中构建自己的模型,对其进行评估,然后最终将其部署到云端。它使您可以灵活地使用几乎所有主要的机器学习或深度学习框架构建模型,并且根据您的要求可以灵活地部署([=202= 的类型]、inference/prediction 服务器的数量、等)。
亚马逊 SageMaker:
[+] https://aws.amazon.com/sagemaker/
Google 云机器学习 (ML) 引擎:
[+] https://cloud.google.com/ml-engine/
Q-4) 如何成为数据科学家?或者我接下来应该做什么?
这是一个价值百万美元的问题,关于这个问题的 google 搜索量很大..哈哈..我会根据我的知识尽量给你一个简短的答案。首先,数据科学是一个更广泛的研究领域,包括以下常见步骤:
- 业务理解或提问阶段
- 数据收集或获取
- 数据处理和准备
- 模型建筑
- 验证和评估
除此之外,您还需要根据数据可变性的变化进行模型再训练,或者您可以部署在线学习模型(它将根据所看到的数据进行自我调整)。
但任何人成为数据的基本要素 scientist/machine 学习从业者是对数据有好奇心(即理解数据并从中发现有价值的知识)。成为数据科学家没有捷径,也没有任何课程可以让你一夜之间成为数据科学家。
没有预定义 role/scope 数据科学人员在公司的日常工作中应该知道什么或做什么。不同的行业或公司根据他们的业务问题对数据科学家有自己的工作requirement/description。
一个优秀的多才多艺的数据科学家必须具备以下技能,才能自信地跨过各个行业并在 his/her 职业生涯中取得成功:
良好的统计学知识(包括一点贝叶斯知识)- 在 EDA 阶段必不可少。
数学(尤其是线性代数、矩阵、向量、多元微积分):https://www.coursera.org/specializations/mathematics-machine-learning
良好的机器学习算法实践知识:https://www.coursera.org/specializations/machine-learning
一些深度学习&强化学习知识。斯坦福深度学习课程:http://cs231n.stanford.edu/ and youtube video of this course by Andrej Karpathy- https://www.youtube.com/watch?v=vT1JzLTH4G4&list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk . Also DeepLearning Coursera: https://www.coursera.org/specializations/deep-learning and Reinforcement Learning course- Berkley University: http://rail.eecs.berkeley.edu/deeprlcourse/
通过 Spark 和 SQL 等大数据工具分析大型数据集。大数据机器学习:https://www.coursera.org/learn/machine-learning-applications-big-data
探索数据和学习新事物的好奇心(及时了解该领域的最新创新)。
以及一些业务领域知识 - 很好(可选)
最好的方法是玩弄数据或做一些真实世界的项目。
许多公开可用的真实世界数据集,您可以选择您感兴趣的数据集。此外,您还可以通过参加 Kaggle 的机器学习和数据科学竞赛来测试您的技能和专业知识。
要获得有关数据科学及其工作原理的一些知识以及一些动手练习,您可以像这样尝试在线课程:
https://www.edx.org/course/introduction-computational-thinking-data-mitx-6-00-2x-2
https://www.edx.org/course/data-science-machine-learning-essentials-microsoft-dat203x
最近我在 Coursera 上了 Andrew Ng 教授的机器学习课程。完成本课程后,我了解了机器学习算法的基础知识,但我有以下问题:
在哪里可以找到真实世界的机器学习用例示例?
Industry/Production for Machine
使用了哪些工具或框架 学习项目?如何在生产中使用或部署机器学习模型?
如何成为数据科学家?或者我接下来应该做什么?
任何建议、书籍、课程或教程链接将不胜感激。
恭喜你完成了 Andrew Ng 的机器学习课程,很久以前我也完成了这门很棒的课程。 不管怎样,所以我会一一回答你的问题,虽然有几个问题是相互关联的。
Q-1) 我在哪里可以找到真实世界机器学习用例示例?
您可以通过以下几个链接找到机器学习与实际用例的教程:
机器学习示例 Scikit 学习:http://scikit-learn.org/stable/tutorial/basic/tutorial.html
机器学习教程 H20:https://github.com/h2oai/h2o-tutorials
Sagemaker 机器学习和深度学习示例:https://github.com/awslabs/amazon-sagemaker-examples
Q-2) Industry/Production for Machine使用了哪些工具或框架 学习项目?
工业级使用了各种各样的工具或框架,例如:
机器学习:
- R(现在学术界多用)
- Python(Sci-kit学习)
- 图形实验室
- Apache Mahout
- Spark MLlib
- H20
深度学习:
- Tensorflow 和 Keras
- Mxnet
- 火炬
- DeepLearning4j
- Analytics Zoo(主要用于使用spark进行大数据深度学习)
虽然 R、Scikit learn、GraphLab 在单机上工作得很好,并且是数据科学家或机器学习从业者中最受欢迎的选择,但是 Mahout、H20 和最近的 Spark (MLlib) 在这个大时代中获得了很多人气数据,您想在单机无法容纳的大型数据集上进行机器学习。
此外,还有一些其他工具,如 Weka、Rapid Miner,用于基于 GUI 的机器学习工作流程。
此工具或框架的选择实际上取决于项目要求、团队成员对 tool/language 的了解、开发的难易程度和部署的可扩展性等因素。
Q-3) 如何在生产中使用或部署机器学习模型?
在生产中,您必须首先构建一个模型,验证和评估该模型,然后该模型最终部署为 web/rest 服务以供其他 applications/services 使用。部署机器学习模型取决于很多因素,例如-
- 模型是离线训练的吗?或者您正在部署在线学习模型?
- 您多久重新训练一次您的模型?
- 您将如何测试新版本的模型? - A/B 测试或 Bandit 变体。
- 连同其他通用事物 - 延迟、吞吐量、数据 input/output 格式等
有一些基于云的机器学习服务提供商,如 Azure ML(https://studio.azureml.net/) BigML(https://bigml.com/) 等,您可以在其中上传您的数据集,进行一些数据处理,训练|验证|评估您的机器学习模型,然后最终将其部署为云中的 Web 服务。
现在所有主要的云平台(aws、googlecloud、azure)都为您提供机器学习平台,您可以在其中构建自己的模型,对其进行评估,然后最终将其部署到云端。它使您可以灵活地使用几乎所有主要的机器学习或深度学习框架构建模型,并且根据您的要求可以灵活地部署([=202= 的类型]、inference/prediction 服务器的数量、等)。
亚马逊 SageMaker:
[+] https://aws.amazon.com/sagemaker/
Google 云机器学习 (ML) 引擎:
[+] https://cloud.google.com/ml-engine/
Q-4) 如何成为数据科学家?或者我接下来应该做什么?
这是一个价值百万美元的问题,关于这个问题的 google 搜索量很大..哈哈..我会根据我的知识尽量给你一个简短的答案。首先,数据科学是一个更广泛的研究领域,包括以下常见步骤:
- 业务理解或提问阶段
- 数据收集或获取
- 数据处理和准备
- 模型建筑
- 验证和评估
除此之外,您还需要根据数据可变性的变化进行模型再训练,或者您可以部署在线学习模型(它将根据所看到的数据进行自我调整)。
但任何人成为数据的基本要素 scientist/machine 学习从业者是对数据有好奇心(即理解数据并从中发现有价值的知识)。成为数据科学家没有捷径,也没有任何课程可以让你一夜之间成为数据科学家。
没有预定义 role/scope 数据科学人员在公司的日常工作中应该知道什么或做什么。不同的行业或公司根据他们的业务问题对数据科学家有自己的工作requirement/description。
一个优秀的多才多艺的数据科学家必须具备以下技能,才能自信地跨过各个行业并在 his/her 职业生涯中取得成功:
良好的统计学知识(包括一点贝叶斯知识)- 在 EDA 阶段必不可少。
数学(尤其是线性代数、矩阵、向量、多元微积分):https://www.coursera.org/specializations/mathematics-machine-learning
良好的机器学习算法实践知识:https://www.coursera.org/specializations/machine-learning
一些深度学习&强化学习知识。斯坦福深度学习课程:http://cs231n.stanford.edu/ and youtube video of this course by Andrej Karpathy- https://www.youtube.com/watch?v=vT1JzLTH4G4&list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk . Also DeepLearning Coursera: https://www.coursera.org/specializations/deep-learning and Reinforcement Learning course- Berkley University: http://rail.eecs.berkeley.edu/deeprlcourse/
通过 Spark 和 SQL 等大数据工具分析大型数据集。大数据机器学习:https://www.coursera.org/learn/machine-learning-applications-big-data
探索数据和学习新事物的好奇心(及时了解该领域的最新创新)。
以及一些业务领域知识 - 很好(可选)
最好的方法是玩弄数据或做一些真实世界的项目。 许多公开可用的真实世界数据集,您可以选择您感兴趣的数据集。此外,您还可以通过参加 Kaggle 的机器学习和数据科学竞赛来测试您的技能和专业知识。
要获得有关数据科学及其工作原理的一些知识以及一些动手练习,您可以像这样尝试在线课程:
https://www.edx.org/course/introduction-computational-thinking-data-mitx-6-00-2x-2
https://www.edx.org/course/data-science-machine-learning-essentials-microsoft-dat203x