为什么 MLLib GenerateLinearInput 在内部将方差乘以 12.0？

Question

考虑 MLLib 中的 generateLinearInput 方法 LinearDataGenerator:

这里是方法的签名：

  def generateLinearInput(
      intercept: Double,
      weights: Array[Double],
      xMean: Array[Double],
      xVariance: Array[Double],
      nPoints: Int,
      seed: Int,
      eps: Double): Seq[LabeledPoint] = {

这里是生成原始数据点的核心逻辑：

val rnd = new Random(seed)
val x = Array.fill[Array[Double]](nPoints)(
  Array.fill[Double](weights.length)(rnd.nextDouble()))

x.foreach { v =>
  var i = 0
  val len = v.length
  while (i < len) {
    v(i) = (v(i) - 0.5) * math.sqrt(12.0 * xVariance(i)) + xMean(i)
    i += 1
  }

请特别注意 12.0 比例因子 方差。 那个因素的目的是什么？

为了完整起见：这是该方法的其余部分 - 其中将输入线性函数应用于 x/domain 值以生成输出 y/range 值：

val y = x.map { xi =>
  blas.ddot(weights.length, xi, 1, weights, 1) + intercept + eps * rnd.nextGaussian()
}
y.zip(x).map(p => LabeledPoint(p._1, Vectors.dense(p._2)))

Answer 1

如果你有随机变量X

然后 its variance is equal

所以这段代码

v(i) = (v(i) - 0.5) * math.sqrt(12.0 * xVariance(i)) + xMean(i)

应该等同于：

其中 a' 和 b' 是所需均匀分布的参数，EX' 是所需分布的平均值。如果将 xMean 设置为 0，则其余代码将输入数据以 0 为中心并调整分布。

为什么 MLLib GenerateLinearInput 在内部将方差乘以 12.0？

Why does MLLib GenerateLinearInput internally multiply variance by 12.0?

random

scala

apache-spark

apache-spark-mllib