如何在 spark SQL 中为 table 添加增量列 ID
how to add a Incremental column ID for a table in spark SQL
我正在研究 spark mllib 算法。我拥有的数据集是这种形式
Company":"XXXX","CurrentTitle":"XYZ","Edu_Title":"ABC","Exp_mnth":.(还有更多值类似于这些)
我正在尝试将字符串值原始编码为数字值。因此,我尝试使用 zipwithuniqueID 作为每个字符串的唯一值 values.For 某些原因我无法将修改后的数据集保存到磁盘。我可以使用 spark SQL 以任何方式执行此操作吗?或者更好的方法是什么?
Scala
val dataFrame1 = dataFrame0.withColumn("index",monotonically_increasing_id())
Java
Import org.apache.spark.sql.functions;
Dataset<Row> dataFrame1 = dataFrame0.withColumn("index",functions.monotonically_increasing_id());
我正在研究 spark mllib 算法。我拥有的数据集是这种形式
Company":"XXXX","CurrentTitle":"XYZ","Edu_Title":"ABC","Exp_mnth":.(还有更多值类似于这些)
我正在尝试将字符串值原始编码为数字值。因此,我尝试使用 zipwithuniqueID 作为每个字符串的唯一值 values.For 某些原因我无法将修改后的数据集保存到磁盘。我可以使用 spark SQL 以任何方式执行此操作吗?或者更好的方法是什么?
Scala
val dataFrame1 = dataFrame0.withColumn("index",monotonically_increasing_id())
Java
Import org.apache.spark.sql.functions;
Dataset<Row> dataFrame1 = dataFrame0.withColumn("index",functions.monotonically_increasing_id());