如何使用 PySpark 从 Panda 数据帧写入 Spark SQL table?
How to write to a Spark SQL table from a Panda data frame using PySpark?
pandas.DataFrame.to_sql() 方法可让您将数据框的结果写入数据库。这在标准 RDBMS 的上下文中运行良好。但是,如何使用 PySpark 将其与 Spark SQL 一起使用?
我需要此方法的连接参数 - 它可以是什么?
谢谢,
马特
SparkSQL 与连接到 SQL 引擎的 to_sql() 无关。
如果 sc 是你的 SparkContext
import pandas as pd
df = pd.DataFrame({'Name':['Tom','Major','Pete'], 'Age':[23,45,30]})
from pyspark import SQLContext
sqlc = SQLContext(sc)
spark_df = sqlc.createDataFrame(df)
pandas.DataFrame.to_sql() 方法可让您将数据框的结果写入数据库。这在标准 RDBMS 的上下文中运行良好。但是,如何使用 PySpark 将其与 Spark SQL 一起使用? 我需要此方法的连接参数 - 它可以是什么?
谢谢, 马特
SparkSQL 与连接到 SQL 引擎的 to_sql() 无关。 如果 sc 是你的 SparkContext
import pandas as pd
df = pd.DataFrame({'Name':['Tom','Major','Pete'], 'Age':[23,45,30]})
from pyspark import SQLContext
sqlc = SQLContext(sc)
spark_df = sqlc.createDataFrame(df)