从 PySpark 获取数据并将其转换并将数据保存到数据库中

Fetch data from PySpark and transfrom it and save data into databases

我是 Python 和 spark 的新手。

我们正在使用 Azure Databrick 并借助下面显示的 PySpark 代码。

data=spark.sql("SELECT  'Name' as name, 'Number' as number FROM Student")

print(data)

此解决方案适合您。

from pyspark.sql.types import StructType,StructField, StringType, IntegerType
data2 = [("Finance",10),
    ("Marketing",20),
    ("Sales",30),
    ("IT",40)
  ]

schema = StructType([ \
    StructField("Name",StringType(),True), \
    StructField("number", IntegerType(), True) \
  ])
 
df = spark.createDataFrame(data=data2,schema=schema)

df1 = df.withColumn("Student",lit("Student")).select("Student",to_json(struct("Name","number")).alias("Data"))
display(df1)