如何从 AWS glue 中的动态数据框中删除错误记录?
How to remove error records from a Dynamic dataframe in AWS glue?
我有一个包含错误的动态数据框records.Please找到下面的代码。
val rawDataFrame = glueContext.getCatalogSource(database = rawDBName, tableName = rawTBLName).getDynamicFrame();
println(s"RAW_DF-----count: ${rawDataFrame.count} errors: ${rawDataFrame.errorsCount}")
上面的打印语句打印如下。
RAW_DF-----count: 168456 errors: 4
我需要创建一个只包含 168456 条记录的动态数据框,我需要消除 4 个错误records.Kindly求助。
错误记录未转换为 Spark 的 DataFrame,因此尝试将 DynamicFrame 转换为 df 并返回:
val noErrorsDyf = DynamicFrame(rawDataFrame.toDF(), glueContext)
我有一个包含错误的动态数据框records.Please找到下面的代码。
val rawDataFrame = glueContext.getCatalogSource(database = rawDBName, tableName = rawTBLName).getDynamicFrame();
println(s"RAW_DF-----count: ${rawDataFrame.count} errors: ${rawDataFrame.errorsCount}")
上面的打印语句打印如下。
RAW_DF-----count: 168456 errors: 4
我需要创建一个只包含 168456 条记录的动态数据框,我需要消除 4 个错误records.Kindly求助。
错误记录未转换为 Spark 的 DataFrame,因此尝试将 DynamicFrame 转换为 df 并返回:
val noErrorsDyf = DynamicFrame(rawDataFrame.toDF(), glueContext)