编写 spark 数据框或编写胶水动态框架，在 AWS Glue 中哪个选项更好？

write a spark dataframe or write a glue dynamic frame, which option is better in AWS Glue?

在 AWS Glue 中，我从胶水动态框架中的数据目录中读取数据。然后将动态帧转换为 spark 数据帧以应用模式转换。为了将数据写回 s3，我看到开发人员将数据帧转换回动态帧。写 glue dynamic frame 比写 spark dataframe 有什么优势吗？

您会发现只有动态框架编写器class可用的功能在使用数据框架时无法访问：

写入 catalog table based on an s3 source as well when you want to utilize connection to JDBC sources. i.e using from_jdbc_conf
使用 glueparquet 格式写入 parquet。
使用bookmarks

这些是我能想到的一些用例，但如果您有一个需要使用保存模式的用例，例如 mode('overwrite')，您可以使用数据框。然而，动态框架中存在类似的方法，但实现方式略有不同。可以看看[purge_s3_path][3]然后写