遍历 C# 中的 spark dataframe 列
iterate over spark dataframe column in C#
我正在使用 microsoft.spark 版本 1.0.0 来处理从网络接收的镶木地板文件。我已将 parquet 文件映射到 Dataframe 中,我试图从存储为电子邮件地址的 userid 列中删除别名(用户 testuser 保存为 testuser@gmail.com)。似乎无法弄清楚如何将 Column 变成可枚举的,并且没有内置的方式来迭代该列。任何指针都会有所帮助
dataframe.WithColumn("alias", ExtractAlias(dataframe["userid"]))
ExtractAlias(Column userID_column){need to iterate over the column to extract out the user alias}
using Microsoft.Spark.Sql;
dataframe.WithColumn("alias", Functions.split(Functions.col("userid"), "@").GetItem(0))
我正在使用 microsoft.spark 版本 1.0.0 来处理从网络接收的镶木地板文件。我已将 parquet 文件映射到 Dataframe 中,我试图从存储为电子邮件地址的 userid 列中删除别名(用户 testuser 保存为 testuser@gmail.com)。似乎无法弄清楚如何将 Column 变成可枚举的,并且没有内置的方式来迭代该列。任何指针都会有所帮助
dataframe.WithColumn("alias", ExtractAlias(dataframe["userid"]))
ExtractAlias(Column userID_column){need to iterate over the column to extract out the user alias}
using Microsoft.Spark.Sql;
dataframe.WithColumn("alias", Functions.split(Functions.col("userid"), "@").GetItem(0))