覆盖模式下的 pyspark inserInto 正在追加而不是覆盖分区
pyspark inserInto in overwrite mode is appending and not overwriting partitions
我是 spark 2.3 的数据工程师,我 运行 遇到了一些问题 :
像下面这样的函数 inserInto 不是在覆盖中插入,而是附加,即使我将 spark.conf 更改为 'dynamic'
spark = spark_utils.getSparkInstance()
spark.conf.set('spark.sql.sources.partitionOverwriteMode', 'dynamic')
df\
.write\
.mode('overwrite')\
.format('orc')\
.option("compression","snappy")\
.insertInto("{0}.{1}".format(hive_database , src_table ))
每次我 运行 作业,行都会附加到分区中并且不会被覆盖
任何人通过这个问题?
谢谢
我试图重现该错误,并且根据文档,您必须在 insertInto 中覆盖为 true。
def insertInto(self, tableName, overwrite=False):
"""Inserts the content of the :class:`DataFrame` to the specified table.
It requires that the schema of the class:`DataFrame` is the same as the
schema of the table.
Optionally overwriting any existing data.
"""
self._jwrite.mode("overwrite" if overwrite else "append").insertInto(tableName)
因此,将此应用于您的代码将是:
df\
.write\
.mode('overwrite')\
.format('orc')\
.option("compression","snappy")\
.insertInto("{0}.{1}".format(hive_database , src_table ), overwrite=True))
我是 spark 2.3 的数据工程师,我 运行 遇到了一些问题 :
像下面这样的函数 inserInto 不是在覆盖中插入,而是附加,即使我将 spark.conf 更改为 'dynamic'
spark = spark_utils.getSparkInstance()
spark.conf.set('spark.sql.sources.partitionOverwriteMode', 'dynamic')
df\
.write\
.mode('overwrite')\
.format('orc')\
.option("compression","snappy")\
.insertInto("{0}.{1}".format(hive_database , src_table ))
每次我 运行 作业,行都会附加到分区中并且不会被覆盖 任何人通过这个问题? 谢谢
我试图重现该错误,并且根据文档,您必须在 insertInto 中覆盖为 true。
def insertInto(self, tableName, overwrite=False):
"""Inserts the content of the :class:`DataFrame` to the specified table.
It requires that the schema of the class:`DataFrame` is the same as the
schema of the table.
Optionally overwriting any existing data.
"""
self._jwrite.mode("overwrite" if overwrite else "append").insertInto(tableName)
因此,将此应用于您的代码将是:
df\
.write\
.mode('overwrite')\
.format('orc')\
.option("compression","snappy")\
.insertInto("{0}.{1}".format(hive_database , src_table ), overwrite=True))