如何使用数据块将 .rdata 文件转换为 Azure 数据湖中的镶木地板?

How to convert .rdata file to parquet in Azure data lake using databricks?

所以我有几个大的 .rdata 文件是通过使用 R 编程语言生成的。我目前已使用 Azure 存储资源管理器将它们上传到 azure data lake。但是我必须将这些 rdata 文件转换为 parquet 格式,然后将它们重新插入到数据湖中。我该怎么做呢?我似乎找不到有关从 rdata 转换为 parquet 的任何信息。

如果你可以使用 python,有一些库,如 pyreadr,可以将 rdata 文件加载为 pandas 数据帧。然后,您可以使用 pandas 写入 parquet 或转换为 pyspark 数据帧。像这样:

import pyreadr

result = pyreadr.read_r('input.rdata')

print(result.keys())  # check the object name
df = result["object"]  # extract the pandas data frame for object name

sdf = spark.createDataFrame(df)

sdf.write.parquet("output")