我无法在 Apache Spark 2 中默认创建镶木地板表
I am not able to create parquet tables by default in Apache Spark 2
我正在尝试在不使用 Stored as parquet
标志的情况下在 Spark 中创建镶木地板 table。换句话说,我想默认将它们创建为 parquet,但 parquet 似乎不是 Spark 中的默认格式。
例如,通过使用以下代码,我想创建一个镶木地板table。
spark.sql(""" CREATE external table schema.table_a(id STRING, text STRING) LOCATION 'path_to_the tables' """)
另一方面,我能够使用标志 hive.default.fileformat=parquet
.
在 Hive 中实现要求
我正在使用 EMR 5.32,我尝试在 spark-defaults 分类上设置 hive.default.fileformat=parquet
。
有什么标志可以帮助我实现目标吗?
尝试 spark.sql.sources.default=parquet
docs 默认情况下它应该是镶木地板,但也许某些东西会在您这边覆盖它。
最后我解决了这个问题,当调用 spark-sql 命令时,我使用 --hiveconf 为我想绕过的每个标志传递配置单元变量。
我使用 --conf 标志来传递配置单元变量,但 --conf 标志用于火花标志,而不是配置单元。
我正在尝试在不使用 Stored as parquet
标志的情况下在 Spark 中创建镶木地板 table。换句话说,我想默认将它们创建为 parquet,但 parquet 似乎不是 Spark 中的默认格式。
例如,通过使用以下代码,我想创建一个镶木地板table。
spark.sql(""" CREATE external table schema.table_a(id STRING, text STRING) LOCATION 'path_to_the tables' """)
另一方面,我能够使用标志 hive.default.fileformat=parquet
.
我正在使用 EMR 5.32,我尝试在 spark-defaults 分类上设置 hive.default.fileformat=parquet
。
有什么标志可以帮助我实现目标吗?
尝试 spark.sql.sources.default=parquet
docs 默认情况下它应该是镶木地板,但也许某些东西会在您这边覆盖它。
最后我解决了这个问题,当调用 spark-sql 命令时,我使用 --hiveconf 为我想绕过的每个标志传递配置单元变量。 我使用 --conf 标志来传递配置单元变量,但 --conf 标志用于火花标志,而不是配置单元。