将 sql 数据 table 转换为 sparklyr 数据帧

Convert sql data table to sparklyr dataframe

我将 data.csv 上传到 Microsoft Azure 存储资源管理器。然后复制 url 并在数据块中创建一个 table。

%sql 
DROP TABLE If EXISTS data; 
CREATE TABLE IF NOT EXISTS data 
USING CSV 
OPTIONS (header "true", inferSchema "true") 
LOCATION "url/data.csv" 

现在我想用sparklyr来操作"data"。

我应该如何将上述数据转换为 sparklyr 数据帧以充分发挥 sparklyr 的潜力?

首先,您必须按如下方式初始化您的 sparklyr 会话:

sc = spark_connect(method = 'databricks')

然后您可以使用以下方法直接从 SQL 表中读取:

sdf_sql(sc, 'SELECT * From ...')

然后照常执行所有常规 sparklyr/dplyr 工作。

请注意,databricks 集群并未预装 sparklyr,因为它们希望推动您使用 SparkR API 来与您的数据进行交互。如果您要使用 sparklyr API,您必须在每次启动集群时安装并加载 sparklyr。