AWS Glue 爬虫 - 输入文件中的列顺序

AWS Glue crawler - Order of columns in input files

我在 s3 存储桶中创建了两个分区，并在每个文件夹中加载了一个 csv 文件。因此，运行在这些文件之上使用 Glue 爬虫，这些文件在 Glue 目录中注册为 table，我可以通过 Athena 进行查询。

Partition-1: 正在 s3 中加载 csv 文件，csv 文件有 5 列
Partition-2: 在 s3 中加载 csv 文件，csv 文件具有与上面相同的 5 列，但与 (1) 相比顺序不同

当我运行爬虫第一次在 (1) 上时，它会创建 Glue table/schema。稍后当我以不同的顺序将相同的数据上传到不同的分区作为 (2) 和运行爬虫时，它只是尝试将第二个文件映射到已经作为 (1) 的一部分创建的模式，这导致数据问题。

Glue 中的列顺序重要吗？爬虫是否不会根据名称自动识别列，而不是期望 (2) 与 (1) 的顺序相同。

顺序在 csv 文件中很重要。任何更改都会使它认为模式不同。但是，如果您使用镶木地板文件，则可以使用

进行排序