如何使用数据块将 .rdata 文件转换为 Azure 数据湖中的镶木地板？

Question

所以我有几个大的 .rdata 文件是通过使用 R 编程语言生成的。我目前已使用 Azure 存储资源管理器将它们上传到 azure data lake。但是我必须将这些 rdata 文件转换为 parquet 格式，然后将它们重新插入到数据湖中。我该怎么做呢？我似乎找不到有关从 rdata 转换为 parquet 的任何信息。

Answer 1

如果你可以使用 python，有一些库，如 pyreadr，可以将 rdata 文件加载为 pandas 数据帧。然后，您可以使用 pandas 写入 parquet 或转换为 pyspark 数据帧。像这样：

import pyreadr

result = pyreadr.read_r('input.rdata')

print(result.keys())  # check the object name
df = result["object"]  # extract the pandas data frame for object name

sdf = spark.createDataFrame(df)

sdf.write.parquet("output")

如何使用数据块将 .rdata 文件转换为 Azure 数据湖中的镶木地板？

How to convert .rdata file to parquet in Azure data lake using databricks?

r

rdata

apache-spark

pyspark

databricks