编写 spark 数据框或编写胶水动态框架,在 AWS Glue 中哪个选项更好?
write a spark dataframe or write a glue dynamic frame, which option is better in AWS Glue?
在 AWS Glue 中,我从胶水动态框架中的数据目录中读取数据。然后将动态帧转换为 spark 数据帧以应用模式转换。为了将数据写回 s3,我看到开发人员将数据帧转换回动态帧。写 glue dynamic frame 比写 spark dataframe 有什么优势吗?
您会发现只有动态框架编写器class可用的功能在使用数据框架时无法访问:
- 写入 catalog table based on an s3 source as well when you want to utilize connection to JDBC sources. i.e using
from_jdbc_conf
- 使用
glueparquet
格式写入 parquet。
- 使用bookmarks
跟踪目标位置中已处理的文件
这些是我能想到的一些用例,但如果您有一个需要使用保存模式的用例,例如 mode('overwrite')
,您可以使用数据框。然而,动态框架中存在类似的方法,但实现方式略有不同。可以看看[purge_s3_path][3]
然后写
在 AWS Glue 中,我从胶水动态框架中的数据目录中读取数据。然后将动态帧转换为 spark 数据帧以应用模式转换。为了将数据写回 s3,我看到开发人员将数据帧转换回动态帧。写 glue dynamic frame 比写 spark dataframe 有什么优势吗?
您会发现只有动态框架编写器class可用的功能在使用数据框架时无法访问:
- 写入 catalog table based on an s3 source as well when you want to utilize connection to JDBC sources. i.e using
from_jdbc_conf
- 使用
glueparquet
格式写入 parquet。 - 使用bookmarks 跟踪目标位置中已处理的文件
这些是我能想到的一些用例,但如果您有一个需要使用保存模式的用例,例如 mode('overwrite')
,您可以使用数据框。然而,动态框架中存在类似的方法,但实现方式略有不同。可以看看[purge_s3_path][3]
然后写