为什么统计数据的某些部分未用于数据科学

Why some portion of statistics is not used in data science

我学习了统计数据,包括均值、中位数、众数和不同的测试

进行 Z 检验、F 检验和卡方检验,几乎都参与

困难的数字数据预测挑战,例如 kaggle 和其他

平台我几乎看不到任何人使用 z、f、卡方、

等统计检验

这些数据的标准化 - 我们都使用箱线图、条形图来查看均值,

中位数、众数等

我的问题是这些测试在哪些方面是数据科学中不可或缺的一部分,因为

这类问题主要是基于研究设计的。

在数据科学问题中理想地应该使用统计学的哪一部分,

当数据科学必须使用所有统计数据时,为什么只使用一部分。

我问的是除算法之外的测试和其他统计数据。

如果您正在研究 A/B 测试之类的东西,您很可能会在数据科学中看到统计假设检验,您的目标是确定两个样本之间是否存在可靠差异差异的大小。

Kaggle 竞赛特别是监督学习问题,而不是假设检验,这就是为什么你看不到人们使用 chi-squared 之类的东西的原因。 (这是有道理的:如果你有十个人对同一个数据集进行假设检验,他们应该都会得到几乎相同的答案,这将导致一场非常无趣的竞争。)

就个人而言,我认为熟悉统计假设检验和 machine-learning 技术是很好的,因为它们有不同的用途。希望有帮助! :)

数据科学中的每个问题都需要不同的方法,因此通用统计数据可能不适用。可能会出现一些不需要统计的问题