Apache Parquet 数据存储引擎?
Apache Parquet data storage engine?
来自 link sql-data-sources-parquet 我看到下面的代码片段存储数据 parquet 格式但是
根据我对 wiki 的理解,它只是一种格式,而不是存储引擎。所以 Parquet 会存储
某些存储引擎上特定格式的数据,如 HDFS/S3/Cassandra 等。不是吗?所以我的问题是下面的代码片段将在哪里
存储数据,因为我没有看到像 HDFS/S3/Cassandra 等
这样的存储引擎
Dataset<Row> peopleDF = spark.read().json("examples/src/main/resources/people.json");
// DataFrames can be saved as Parquet files, maintaining the schema information
peopleDF.write().parquet("people.parquet");
// Read in the Parquet file created above.
// Parquet files are self-describing so the schema is preserved
// The result of loading a parquet file is also a DataFrame
Dataset<Row> parquetFileDF = spark.read().parquet("people.parquet");
它是从URL方案推导出来的,例如s3://examples/src/main/resources/people.json
或hdfs://examples/src/main/resources/people.json
。从方案到 org.apache.hadoop.fs.FileSystem
实现的映射在 hadoop 配置中维护。例如
<property><name>fs.s3.impl</name><value>org.apache.hadoop.fs.s3a.S3AFileSystem</value></property>
会将 s3://...
映射到 S3AFileSystem
并且某些常见文件系统有默认设置,以防它们未明确配置。
来自 link sql-data-sources-parquet 我看到下面的代码片段存储数据 parquet 格式但是 根据我对 wiki 的理解,它只是一种格式,而不是存储引擎。所以 Parquet 会存储 某些存储引擎上特定格式的数据,如 HDFS/S3/Cassandra 等。不是吗?所以我的问题是下面的代码片段将在哪里 存储数据,因为我没有看到像 HDFS/S3/Cassandra 等
这样的存储引擎Dataset<Row> peopleDF = spark.read().json("examples/src/main/resources/people.json");
// DataFrames can be saved as Parquet files, maintaining the schema information
peopleDF.write().parquet("people.parquet");
// Read in the Parquet file created above.
// Parquet files are self-describing so the schema is preserved
// The result of loading a parquet file is also a DataFrame
Dataset<Row> parquetFileDF = spark.read().parquet("people.parquet");
它是从URL方案推导出来的,例如s3://examples/src/main/resources/people.json
或hdfs://examples/src/main/resources/people.json
。从方案到 org.apache.hadoop.fs.FileSystem
实现的映射在 hadoop 配置中维护。例如
<property><name>fs.s3.impl</name><value>org.apache.hadoop.fs.s3a.S3AFileSystem</value></property>
会将 s3://...
映射到 S3AFileSystem
并且某些常见文件系统有默认设置,以防它们未明确配置。