二次分析和数据挖掘的区别

Difference between secondary analysis and data mining

我正在尝试从为其他目的构建的大型多维数据集中提取某些人口统计群体的一些消费模式。我正在使用手动方法 (SPSS) 进行聚类和回归分析。这算是二次分析还是数据挖掘?我了解统计分析和数据挖掘之间的区别,但在这种情况下似乎介于两者之间...谢谢

"Secondary analysis" 表示数据是为 "primary" 研究项目 A 收集的,但随后 再次 对 "secondary" 项目 B 进行了分析一个非常不同的 objective,最初没有计划。也许很久以后,也许是不同的人。如果您想避免自己做实验的成本,并且其他人已经发布了合适的数据,这在医学上相当普遍。

一个理论例子:

  1. 研究组 A 对药物 B 进行临床试验,并测量体重和胰岛素水平。
  2. 研究组(使用药物 B)和对照组(不使用药物 B)的数据已发布。
  3. ...十年后...
  4. 研究组 C 想知道体重和胰岛素水平之间是否存在相关性。他们不关心B药,所以只看对照组。他们将数据与许多其他小组的数据结合起来,而不是自己做实验。

这不是一项 "meta" 研究,因为他们忽略了关于药物 B 的任何结果。他们不使用 A 组的结果,只使用他们的数据,用于 不同的目的。由于这是对数据的二次使用,因此称为 "secondary analysis"。

分析可以像计算相关性一样简单 - 通常不被认为是 "data mining" 的东西(您不 search,也不使用 advanced 统计)但传统的统计假设检验。