如何计算数据框中每一行与常量参考数组的欧式距离
How to calculate euclidean distance of each row in a dataframe to a constant reference array
我有一个数据框,它是从具有 512 列(所有浮点值)的镶木地板文件创建的。
我正在尝试计算数据框中每一行与常量参考数组的欧氏距离。
我的开发环境是 Zeppelin 0.7.3,spark 2.1 和 Scala。这是我 运行:
的飞艇段落
import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.linalg.Vectors
//Create dataframe from parquet file
val filePath = "/tmp/vector.parquet/*.parquet"
val df = spark.read.parquet(filePath)
//Create assembler and vectorize df
val assembler = new VectorAssembler()
.setInputCols(df.columns)
.setOutputCol("features")
val training = assembler.transform(df)
//Create udf
val eucDisUdf = udf((features: Vector,
myvec:Vector)=>Vectors.sqdist(features, myvec))
//Cretae ref vector
val myScalaVec = Vectors.dense( Array.fill(512)(25.44859))
val distDF =
training2.withColumn("euc",eucDisUdf($"features",myScalaVec))
此代码为 eucDisUdf 调用提供了以下错误:
error: type mismatch; found : org.apache.spark.ml.linalg.Vector
required: org.apache.spark.sql.Column
我很欣赏如何在 scala 中消除此错误并正确计算距离。
我认为你可以使用柯里化来实现:
def eucDisUdf(myvec:Vector) = udf((features: Vector) => Vectors.sqdist(features, myvec))
val myScalaVec = Vectors.dense(Array.fill(512)(25.44859))
val distDF = training2.withColumn( "euc", eucDisUdf(myScalaVec)($"features") )
我有一个数据框,它是从具有 512 列(所有浮点值)的镶木地板文件创建的。
我正在尝试计算数据框中每一行与常量参考数组的欧氏距离。
我的开发环境是 Zeppelin 0.7.3,spark 2.1 和 Scala。这是我 运行:
的飞艇段落import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.linalg.Vectors
//Create dataframe from parquet file
val filePath = "/tmp/vector.parquet/*.parquet"
val df = spark.read.parquet(filePath)
//Create assembler and vectorize df
val assembler = new VectorAssembler()
.setInputCols(df.columns)
.setOutputCol("features")
val training = assembler.transform(df)
//Create udf
val eucDisUdf = udf((features: Vector,
myvec:Vector)=>Vectors.sqdist(features, myvec))
//Cretae ref vector
val myScalaVec = Vectors.dense( Array.fill(512)(25.44859))
val distDF =
training2.withColumn("euc",eucDisUdf($"features",myScalaVec))
此代码为 eucDisUdf 调用提供了以下错误:
error: type mismatch; found : org.apache.spark.ml.linalg.Vector
required: org.apache.spark.sql.Column
我很欣赏如何在 scala 中消除此错误并正确计算距离。
我认为你可以使用柯里化来实现:
def eucDisUdf(myvec:Vector) = udf((features: Vector) => Vectors.sqdist(features, myvec))
val myScalaVec = Vectors.dense(Array.fill(512)(25.44859))
val distDF = training2.withColumn( "euc", eucDisUdf(myScalaVec)($"features") )