如何将数据集转换为存储库中的字典。我在代工厂内使用 pyspark
How do I transform the data set into a dictionary inside the repo. I am using pyspark within foundry
我创建了一个融合sheet数据同步到数据集。现在,我想使用该数据集在回购中创建字典。我在回购协议中使用 pyspark。稍后我想使用要传递的字典,以便它填充 Is there a tool available within Foundry that can automatically populate column descriptions? If so, what is it called?.
中的描述
如果有人可以帮助我在 repo 中使用 pyspark 从数据集创建字典,那就太好了。
以下代码会将您的 pyspark 数据框转换为字典列表:
fusion_rows = map(lambda row: row.asDict(), fusion_df.collect())
但是,在您的特定情况下,您可以使用以下代码段:
col_descriptions = {row["column_name"]: row["description"] for row in fusion_df.collect()}
my_output.write_dataframe(
my_input.dataframe(),
column_descriptions=col_descriptions
)
假设您的 Fusion sheet 看起来像这样:
+------------+------------------+
| column_name| description|
+------------+------------------+
| col_A| description for A|
| col_B| description for B|
+------------+------------------+
我创建了一个融合sheet数据同步到数据集。现在,我想使用该数据集在回购中创建字典。我在回购协议中使用 pyspark。稍后我想使用要传递的字典,以便它填充 Is there a tool available within Foundry that can automatically populate column descriptions? If so, what is it called?.
中的描述如果有人可以帮助我在 repo 中使用 pyspark 从数据集创建字典,那就太好了。
以下代码会将您的 pyspark 数据框转换为字典列表:
fusion_rows = map(lambda row: row.asDict(), fusion_df.collect())
但是,在您的特定情况下,您可以使用以下代码段:
col_descriptions = {row["column_name"]: row["description"] for row in fusion_df.collect()}
my_output.write_dataframe(
my_input.dataframe(),
column_descriptions=col_descriptions
)
假设您的 Fusion sheet 看起来像这样:
+------------+------------------+
| column_name| description|
+------------+------------------+
| col_A| description for A|
| col_B| description for B|
+------------+------------------+