如何使用数据块将 .rdata 文件转换为 Azure 数据湖中的镶木地板?
How to convert .rdata file to parquet in Azure data lake using databricks?
所以我有几个大的 .rdata
文件是通过使用 R 编程语言生成的。我目前已使用 Azure 存储资源管理器将它们上传到 azure data lake。但是我必须将这些 rdata 文件转换为 parquet 格式,然后将它们重新插入到数据湖中。我该怎么做呢?我似乎找不到有关从 rdata 转换为 parquet 的任何信息。
如果你可以使用 python,有一些库,如 pyreadr,可以将 rdata
文件加载为 pandas 数据帧。然后,您可以使用 pandas 写入 parquet 或转换为 pyspark 数据帧。像这样:
import pyreadr
result = pyreadr.read_r('input.rdata')
print(result.keys()) # check the object name
df = result["object"] # extract the pandas data frame for object name
sdf = spark.createDataFrame(df)
sdf.write.parquet("output")
所以我有几个大的 .rdata
文件是通过使用 R 编程语言生成的。我目前已使用 Azure 存储资源管理器将它们上传到 azure data lake。但是我必须将这些 rdata 文件转换为 parquet 格式,然后将它们重新插入到数据湖中。我该怎么做呢?我似乎找不到有关从 rdata 转换为 parquet 的任何信息。
如果你可以使用 python,有一些库,如 pyreadr,可以将 rdata
文件加载为 pandas 数据帧。然后,您可以使用 pandas 写入 parquet 或转换为 pyspark 数据帧。像这样:
import pyreadr
result = pyreadr.read_r('input.rdata')
print(result.keys()) # check the object name
df = result["object"] # extract the pandas data frame for object name
sdf = spark.createDataFrame(df)
sdf.write.parquet("output")