编写 spark 数据框或编写胶水动态框架,在 AWS Glue 中哪个选项更好?

write a spark dataframe or write a glue dynamic frame, which option is better in AWS Glue?

在 AWS Glue 中,我从胶水动态框架中的数据目录中读取数据。然后将动态帧转换为 spark 数据帧以应用模式转换。为了将数据写回 s3,我看到开发人员将数据帧转换回动态帧。写 glue dynamic frame 比写 spark dataframe 有什么优势吗?

您会发现只有动态框架编写器class可用的功能在使用数据框架时无法访问:

  1. 写入 catalog table based on an s3 source as well when you want to utilize connection to JDBC sources. i.e using from_jdbc_conf
  2. 使用 glueparquet 格式写入 parquet。
  3. 使用bookmarks
  4. 跟踪目标位置中已处理的文件

这些是我能想到的一些用例,但如果您有一个需要使用保存模式的用例,例如 mode('overwrite'),您可以使用数据框。然而,动态框架中存在类似的方法,但实现方式略有不同。可以看看[purge_s3_path][3]然后写