重复记录移动到 pyspark 中的其他临时 table
Duplicate Records move to other temp table in pyspark
我正在使用 Pyspark
我的输入数据如下所示。
COL1|COL2
|TYCO|130003|
|EMC |120989|
|VOLVO|102329|
|BMW|130157|
|FORD|503004|
|TYCO|130003|
我已经创建了 DataFrame 并查询重复项,如下所示。
from pyspark.sql import Row
from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.appName("Test") \
.getOrCreate()
data = spark.read.csv("filepath")
data.registerTempTable("data")
spark.sql("SELECT count(col2)CNT, col2 from data GROUP BY col2 ").show()
这给出了正确的结果,但我们能否在单独的温度中获得重复值 table。
output data in Temp1
+----+------+
| 1|120989|
| 1|102329|
| 1|130157|
| 1|503004|
+----+------+
在 temp2 中输出数据
+----+------+
| 2|130003|
+----+------+
sqlDF = spark.sql("SELECT count(col2)CNT, col2 from data GROUP BY col2 having cnt > 1 ");
sqlDF.createOrReplaceTempView("temp2");
我正在使用 Pyspark
我的输入数据如下所示。
COL1|COL2
|TYCO|130003|
|EMC |120989|
|VOLVO|102329|
|BMW|130157|
|FORD|503004|
|TYCO|130003|
我已经创建了 DataFrame 并查询重复项,如下所示。
from pyspark.sql import Row
from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.appName("Test") \
.getOrCreate()
data = spark.read.csv("filepath")
data.registerTempTable("data")
spark.sql("SELECT count(col2)CNT, col2 from data GROUP BY col2 ").show()
这给出了正确的结果,但我们能否在单独的温度中获得重复值 table。
output data in Temp1
+----+------+
| 1|120989|
| 1|102329|
| 1|130157|
| 1|503004|
+----+------+
在 temp2 中输出数据
+----+------+
| 2|130003|
+----+------+
sqlDF = spark.sql("SELECT count(col2)CNT, col2 from data GROUP BY col2 having cnt > 1 ");
sqlDF.createOrReplaceTempView("temp2");