如何在没有列名的情况下使用 pyspark 写入 JDBC
how to use pyspark writing to JDBC without column name
我的问题真的很简单。
我正在使用 pyspark 将配置单元 table 导出到 SQL 服务器。
我发现我在 SQL 服务器中将列名称导出为行。
我只想不使用列名。
我不希望这些列在 tables...
我的 pyspark 代码在这里:
df.write.jdbc("jdbc:sqlserver://10.8.12.10;instanceName=sql1", "table_name", "overwrite", {"user": "user_name", "password": "111111", "database": "Finance"})
是否有跳过列名的选项?
我认为 JDBC 连接器实际上并不是添加那些 header 行的东西。
header 已经存在于您的 Dataframe 中,这是从 Hive table 读取数据时的一个已知问题。
如果您使用 SQL 从 Hive 加载数据,您可以尝试使用条件 col != 'col'
:
过滤 header
# adapt the condition by verifiying what is in df.show()
df = spark.sql("select * from my_table where sold_to_party!='Sold-To Party'")
我的问题真的很简单。
我正在使用 pyspark 将配置单元 table 导出到 SQL 服务器。
我发现我在 SQL 服务器中将列名称导出为行。
我只想不使用列名。
我不希望这些列在 tables...
我的 pyspark 代码在这里:
df.write.jdbc("jdbc:sqlserver://10.8.12.10;instanceName=sql1", "table_name", "overwrite", {"user": "user_name", "password": "111111", "database": "Finance"})
是否有跳过列名的选项?
我认为 JDBC 连接器实际上并不是添加那些 header 行的东西。 header 已经存在于您的 Dataframe 中,这是从 Hive table 读取数据时的一个已知问题。
如果您使用 SQL 从 Hive 加载数据,您可以尝试使用条件 col != 'col'
:
# adapt the condition by verifiying what is in df.show()
df = spark.sql("select * from my_table where sold_to_party!='Sold-To Party'")