将大型 JSON 文件转换并拆分为较小的 Parquet 文件
Convert and split large JSON files to smaller Parquet files
我在 AWS S3 中有超过 1200 个 JSON 文件需要转换为 Parquet 并拆分成更小的文件(我正在为 Redshift Spectrum 准备它们)。我试图创建一个 Lambda 函数来为每个文件执行此操作。但是该功能需要很长时间才能完成或消耗大量内存,因此在完成之前就结束了。这些文件大约有 3-6 GB。
顺便说一句。我用 Python.
我不想为此启动 EC2,因为这需要很长时间才能完成。
我想要一些有关如何完成此操作的建议。
AWS Glue 可用于此类任务。您可以创建粘合作业以将 json 格式日转换为镶木地板格式,并将其保存到您选择的 S3 存储桶中。 https://aws.amazon.com/blogs/big-data/build-a-data-lake-foundation-with-aws-glue-and-amazon-s3/
我在 AWS S3 中有超过 1200 个 JSON 文件需要转换为 Parquet 并拆分成更小的文件(我正在为 Redshift Spectrum 准备它们)。我试图创建一个 Lambda 函数来为每个文件执行此操作。但是该功能需要很长时间才能完成或消耗大量内存,因此在完成之前就结束了。这些文件大约有 3-6 GB。
顺便说一句。我用 Python.
我不想为此启动 EC2,因为这需要很长时间才能完成。
我想要一些有关如何完成此操作的建议。
AWS Glue 可用于此类任务。您可以创建粘合作业以将 json 格式日转换为镶木地板格式,并将其保存到您选择的 S3 存储桶中。 https://aws.amazon.com/blogs/big-data/build-a-data-lake-foundation-with-aws-glue-and-amazon-s3/