AWS Glue 爬虫 - 输入文件中的列顺序
AWS Glue crawler - Order of columns in input files
我在 s3 存储桶中创建了两个分区,并在每个文件夹中加载了一个 csv 文件。因此,运行在这些文件之上使用 Glue 爬虫,这些文件在 Glue 目录中注册为 table,我可以通过 Athena 进行查询。
- Partition-1: 正在 s3 中加载 csv 文件,csv 文件有 5 列
- Partition-2: 在 s3 中加载 csv 文件,csv 文件具有与上面相同的 5 列,但与 (1) 相比顺序不同
当我 运行 爬虫第一次在 (1) 上时,它会创建 Glue table/schema。稍后当我以不同的顺序将相同的数据上传到不同的分区作为 (2) 和 运行 爬虫时,它只是尝试将第二个文件映射到已经作为 (1) 的一部分创建的模式,这导致数据问题。
Glue 中的列顺序重要吗?爬虫是否不会根据名称自动识别列,而不是期望 (2) 与 (1) 的顺序相同。
顺序在 csv 文件中很重要。任何更改都会使它认为模式不同。但是,如果您使用镶木地板文件,则可以使用
进行排序
我在 s3 存储桶中创建了两个分区,并在每个文件夹中加载了一个 csv 文件。因此,运行在这些文件之上使用 Glue 爬虫,这些文件在 Glue 目录中注册为 table,我可以通过 Athena 进行查询。
- Partition-1: 正在 s3 中加载 csv 文件,csv 文件有 5 列
- Partition-2: 在 s3 中加载 csv 文件,csv 文件具有与上面相同的 5 列,但与 (1) 相比顺序不同
当我 运行 爬虫第一次在 (1) 上时,它会创建 Glue table/schema。稍后当我以不同的顺序将相同的数据上传到不同的分区作为 (2) 和 运行 爬虫时,它只是尝试将第二个文件映射到已经作为 (1) 的一部分创建的模式,这导致数据问题。
Glue 中的列顺序重要吗?爬虫是否不会根据名称自动识别列,而不是期望 (2) 与 (1) 的顺序相同。
顺序在 csv 文件中很重要。任何更改都会使它认为模式不同。但是,如果您使用镶木地板文件,则可以使用
进行排序