火花选项的文档
Documentation for spark options
这个问题可能很容易回答,但我这辈子似乎找不到这个问题。
有人可以指点我有关可与 spark 一起使用的各种键值对选项的文档吗?
此类选项的示例(在 pyspark 中):
some_spark_table.write.format("parquet").option("parquet.block.size", 1234)
因此,如果我对 parquet.block.size
选项的单位感兴趣,我可以在哪里找到它?
我找到了 this link,其中有帮助说明:"To find more detailed information about the extra ORC/Parquet options, visit the official Apache ORC/Parquet websites." 但我仍然找不到它。
您必须通过官方文档才能找到这些属性。
例如,与 parquet 相关的属性
(https://spark.apache.org/docs/2.4.0/sql-data-sources-parquet.html#configuration)
虽然您可以找到大多数与配置相关的属性 here。
希望对您有所帮助!
正如文档所说,您可以访问 Apache Parquet 官方网站。我认为官方网站的意思是 Parquet git repo :)
从那里引用:
Property: parquet.block.size
Description: The block size in bytes. This property depends on the file system:
If the file system (FS) used supports blocks like HDFS, the block size
will be the maximum between the default block size of FS and this
property. And the row group size will be equal to this property.
block_size = max(default_fs_block_size, parquet.block.size)
row_group_size = parquet.block.size
- If the file system used doesn't support blocks, then this property will define the row group size.
Note that larger values of row group size will improve the IO when
reading but consume more memory when writing
Default value: 134217728 (128 MB)
与 Parquet 不同,Spark 自己的配置设置在其网站上有很好的记录(他们希望您了解的设置),如另一个答案中所指出的。
这个问题可能很容易回答,但我这辈子似乎找不到这个问题。
有人可以指点我有关可与 spark 一起使用的各种键值对选项的文档吗?
此类选项的示例(在 pyspark 中):
some_spark_table.write.format("parquet").option("parquet.block.size", 1234)
因此,如果我对 parquet.block.size
选项的单位感兴趣,我可以在哪里找到它?
我找到了 this link,其中有帮助说明:"To find more detailed information about the extra ORC/Parquet options, visit the official Apache ORC/Parquet websites." 但我仍然找不到它。
您必须通过官方文档才能找到这些属性。 例如,与 parquet 相关的属性 (https://spark.apache.org/docs/2.4.0/sql-data-sources-parquet.html#configuration)
虽然您可以找到大多数与配置相关的属性 here。
希望对您有所帮助!
正如文档所说,您可以访问 Apache Parquet 官方网站。我认为官方网站的意思是 Parquet git repo :)
从那里引用:
Property: parquet.block.size
Description: The block size in bytes. This property depends on the file system:
If the file system (FS) used supports blocks like HDFS, the block size will be the maximum between the default block size of FS and this property. And the row group size will be equal to this property.
block_size = max(default_fs_block_size, parquet.block.size)
row_group_size = parquet.block.size
- If the file system used doesn't support blocks, then this property will define the row group size.
Note that larger values of row group size will improve the IO when reading but consume more memory when writing
Default value: 134217728 (128 MB)
与 Parquet 不同,Spark 自己的配置设置在其网站上有很好的记录(他们希望您了解的设置),如另一个答案中所指出的。