spark HiveContext/SQLContext 如何检索 schema/data?

How is spark HiveContext/SQLContext retrieving schema/data?

我似乎找不到太多关于它的文档,但是当我在 Spark 中从 Hive 中提取数据时 SQL 它是如何检索模式的,它是否会自动在 Hive Metastore 中查找? Hive 是否也告诉 spark 查看文件位置以将数据拉入 DataFrame?它如何处理一个视图,或者它不能处理一个视图吗?

  1. 是的,它查找配置单元元存储。
  2. Spark 将 Hive 查询委托给 Hive。它捕获输出并将其转换为行数据框。 来自文档:

When working with Hive one must construct a HiveContext, which inherits from SQLContext, and adds support for finding tables in the MetaStore and writing queries using HiveQL