我可以 return 来自 apache spark UDF 的 Tuple2(在 java 中)吗?
Can I return a Tuple2 from an apache spark UDF (in java)?
我需要一个 UDF2,它采用两个参数作为输入,对应于类型为 String 和 mllib.linalg.Vector 的两个 Dataframe 列和 return 一个 Tuple2。这可行吗?如果是,我该如何注册这个 udf()?
hiveContext.udf().register("getItemData", get_item_data, WHAT GOES HERE FOR RETURN TYPE?);
udf定义如下:
UDF2<String, org.apache.spark.mllib.linalg.Vector, Tuple2<String, org.apache.spark.mllib.linalg.Vector>> get_item_data =
(String id, org.apache.spark.mllib.linalg.Vector features) -> {
return new Tuple2<>(id, features);
};
有一个schema
可以定义如下:
import org.apache.spark.sql.types.DataType;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.mllib.linalg.VectorUDT;
List<StructField> fields = new ArrayList<>();
fields.add(DataTypes.createStructField("id", DataTypes.StringType, false));
fields.add(DataTypes.createStructField("features", new VectorUDT(), false));
DataType schema = DataTypes.createStructType(fields);
但如果您只需要一个 struct
而无需任何额外处理 org.apache.spark.sql.functions.struct
应该可以解决问题:
df.select(struct(col("id"), col("features"));
我需要一个 UDF2,它采用两个参数作为输入,对应于类型为 String 和 mllib.linalg.Vector 的两个 Dataframe 列和 return 一个 Tuple2。这可行吗?如果是,我该如何注册这个 udf()?
hiveContext.udf().register("getItemData", get_item_data, WHAT GOES HERE FOR RETURN TYPE?);
udf定义如下:
UDF2<String, org.apache.spark.mllib.linalg.Vector, Tuple2<String, org.apache.spark.mllib.linalg.Vector>> get_item_data =
(String id, org.apache.spark.mllib.linalg.Vector features) -> {
return new Tuple2<>(id, features);
};
有一个schema
可以定义如下:
import org.apache.spark.sql.types.DataType;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.mllib.linalg.VectorUDT;
List<StructField> fields = new ArrayList<>();
fields.add(DataTypes.createStructField("id", DataTypes.StringType, false));
fields.add(DataTypes.createStructField("features", new VectorUDT(), false));
DataType schema = DataTypes.createStructType(fields);
但如果您只需要一个 struct
而无需任何额外处理 org.apache.spark.sql.functions.struct
应该可以解决问题:
df.select(struct(col("id"), col("features"));