如何使用 PySpark 从 Panda 数据帧写入 Spark SQL table?

How to write to a Spark SQL table from a Panda data frame using PySpark?

pandas.DataFrame.to_sql() 方法可让您将数据框的结果写入数据库。这在标准 RDBMS 的上下文中运行良好。但是,如何使用 PySpark 将其与 Spark SQL 一起使用? 我需要此方法的连接参数 - 它可以是什么?

谢谢, 马特

SparkSQL 与连接到 SQL 引擎的 to_sql() 无关。 如果 sc 是你的 SparkContext

import pandas as pd
df = pd.DataFrame({'Name':['Tom','Major','Pete'], 'Age':[23,45,30]})

from pyspark import SQLContext
sqlc = SQLContext(sc)

spark_df = sqlc.createDataFrame(df)