PySpark 使用 "Overwirte" 模式保存到 Redshift table 会导致删除 table?
PySpark save to Redshift table with "Overwirte" mode results in dropping table?
在 AWS Glue 中使用 PySpark 将数据从 S3 文件加载到 Redshift table,在代码使用模式下 ("Overwirte") 得到错误说明 "can't drop table because other object depend on the table",原来有视图在 table 之上创建,接缝 "Overwrite" 模式实际上删除并重新创建 redshift table 然后加载数据,是否有任何选项只能 "truncate" table 不掉线吗?
AWS Glue 使用 databricks spark redshift connector(它没有在任何地方记录,但我根据经验验证了这一点)。 Spark redshift 连接器的文档提到:
Overwriting an existing table: By default, this library uses transactions to perform overwrites, which are implemented by deleting the destination table, creating a new empty table, and appending rows to it.
这里有一个与你的问题相关的内联讨论,他们使用截断而不是覆盖,它也是 lambda 和胶水的组合。请参阅 here 以获得详细的讨论和代码示例。希望这有帮助。
问候
在 AWS Glue 中使用 PySpark 将数据从 S3 文件加载到 Redshift table,在代码使用模式下 ("Overwirte") 得到错误说明 "can't drop table because other object depend on the table",原来有视图在 table 之上创建,接缝 "Overwrite" 模式实际上删除并重新创建 redshift table 然后加载数据,是否有任何选项只能 "truncate" table 不掉线吗?
AWS Glue 使用 databricks spark redshift connector(它没有在任何地方记录,但我根据经验验证了这一点)。 Spark redshift 连接器的文档提到:
Overwriting an existing table: By default, this library uses transactions to perform overwrites, which are implemented by deleting the destination table, creating a new empty table, and appending rows to it.
这里有一个与你的问题相关的内联讨论,他们使用截断而不是覆盖,它也是 lambda 和胶水的组合。请参阅 here 以获得详细的讨论和代码示例。希望这有帮助。
问候