Spark GraphX:添加多个边权重

Spark GraphX: add multiple edge weights

我是 GraphX 的新手,我有一个包含四列的 Spark 数据框,如下所示:

src_ip    dst_ip    flow_count   sum_bytes
8.8.8.8   1.2.3.4          435        1137
  ...       ...           ...         ...

基本上我想将 src_ipdst_ip 都映射到顶点并将 flow_countsum_bytes 指定为边属性。据我所知,我们不能在 GraphX 中添加边属性,因为只允许添加顶点属性。因此,我正在考虑添加 flow_count 作为边缘权重:

//create edges
val trafficEdges = trafficsFromTo.map(x =Edge(MurmurHash3.stringHash(x(0).toString,MurmurHash3.stringHash(x(1).toString,x(2))

但是,我也可以添加 sum_bytes 作为边权重吗?

可以将两个变量都添加到边缘。最简单的解决方案是使用元组,例如:

val data = Array(Edge(3L, 7L, (123, 456)), Edge(5L, 3L, (41, 34)))
val edges: RDD[Edge[(Int, Int)]] = spark.sparkContext.parallelize(data)

或者,您可以使用大小写 class:

case class EdgeWeight(flow_count: Int, sum_bytes: Int)

val data2 = Array(Edge(3L, 7L, EdgeWeight(123, 456)), Edge(5L, 3L, EdgeWeight(41, 34)))
val edges: RDD[Edge[EdgeWeight]] = spark.sparkContext.parallelize(data2)

使用caseclass如果需要添加的属性比较多的话使用和维护会更方便


我相信在这个具体案例中,最优雅的解决方法是:

val trafficEdges = trafficsFromTo.map{x => 
  Edge(MurmurHash3.stringHash(x(0).toString, 
       MurmurHash3.stringHash(x(1).toString,
       EdgeWeight(x(2), x(3))
}

trafficEdges.sortBy(edge => edge.attr.flow_count) // sort by flow_count