将 sql 数据 table 转换为 sparklyr 数据帧
Convert sql data table to sparklyr dataframe
我将 data.csv 上传到 Microsoft Azure 存储资源管理器。然后复制 url 并在数据块中创建一个 table。
%sql
DROP TABLE If EXISTS data;
CREATE TABLE IF NOT EXISTS data
USING CSV
OPTIONS (header "true", inferSchema "true")
LOCATION "url/data.csv"
现在我想用sparklyr来操作"data"。
我应该如何将上述数据转换为 sparklyr 数据帧以充分发挥 sparklyr 的潜力?
首先,您必须按如下方式初始化您的 sparklyr 会话:
sc = spark_connect(method = 'databricks')
然后您可以使用以下方法直接从 SQL 表中读取:
sdf_sql(sc, 'SELECT * From ...')
然后照常执行所有常规 sparklyr/dplyr 工作。
请注意,databricks 集群并未预装 sparklyr,因为它们希望推动您使用 SparkR API 来与您的数据进行交互。如果您要使用 sparklyr API,您必须在每次启动集群时安装并加载 sparklyr。
我将 data.csv 上传到 Microsoft Azure 存储资源管理器。然后复制 url 并在数据块中创建一个 table。
%sql
DROP TABLE If EXISTS data;
CREATE TABLE IF NOT EXISTS data
USING CSV
OPTIONS (header "true", inferSchema "true")
LOCATION "url/data.csv"
现在我想用sparklyr来操作"data"。
我应该如何将上述数据转换为 sparklyr 数据帧以充分发挥 sparklyr 的潜力?
首先,您必须按如下方式初始化您的 sparklyr 会话:
sc = spark_connect(method = 'databricks')
然后您可以使用以下方法直接从 SQL 表中读取:
sdf_sql(sc, 'SELECT * From ...')
然后照常执行所有常规 sparklyr/dplyr 工作。
请注意,databricks 集群并未预装 sparklyr,因为它们希望推动您使用 SparkR API 来与您的数据进行交互。如果您要使用 sparklyr API,您必须在每次启动集群时安装并加载 sparklyr。