在选择任何机器学习算法之前如何进行数据探索
How to do data exploration before choosing any Machine Learning algorithms
有什么工具可以帮助识别数据分布模式,然后决定选择 ML 算法吗?
首先,你得把机器学习理解为一个领域,并且对它的子领域有一定的了解。如果您不直观地了解您的工具,您将无法确定何时使用它们。
你说的这个想法叫做探索性数据分析,如果你考虑得当,它会非常平易近人。用科学的方法思考一下:
首先,查看数据和所有相关文档。
然后,对可能存在的模式进行一些假设。
根据您对 ML 的理解,集思广益,想出一些可以让您深入了解您的假设的方法。例如,如果您发现您建议的相关值可以有几个不同的值,则您有分类问题,并且根据您的输入数据,您应该选择合适的方法。
您可能会发现有用的工具很多,但编程语言 R 或 Python 可能是一个好的开始。两者都是非常强大的数据科学工具。 R 具有更大的学习曲线,但在构建时考虑到了数据科学。另一方面,Python 很容易上手,但在 ML 和数据科学库方面你有更多选择。使用 Python,查看 Pandas for CSV and data manipulation, and Tensorflow、Theano 或 Scikit-Learn 进行数据分析和 ML。
希望对您有所帮助!
有什么工具可以帮助识别数据分布模式,然后决定选择 ML 算法吗?
首先,你得把机器学习理解为一个领域,并且对它的子领域有一定的了解。如果您不直观地了解您的工具,您将无法确定何时使用它们。
你说的这个想法叫做探索性数据分析,如果你考虑得当,它会非常平易近人。用科学的方法思考一下:
首先,查看数据和所有相关文档。
然后,对可能存在的模式进行一些假设。
根据您对 ML 的理解,集思广益,想出一些可以让您深入了解您的假设的方法。例如,如果您发现您建议的相关值可以有几个不同的值,则您有分类问题,并且根据您的输入数据,您应该选择合适的方法。
您可能会发现有用的工具很多,但编程语言 R 或 Python 可能是一个好的开始。两者都是非常强大的数据科学工具。 R 具有更大的学习曲线,但在构建时考虑到了数据科学。另一方面,Python 很容易上手,但在 ML 和数据科学库方面你有更多选择。使用 Python,查看 Pandas for CSV and data manipulation, and Tensorflow、Theano 或 Scikit-Learn 进行数据分析和 ML。
希望对您有所帮助!