用于镶木地板的 Grok 分类器

Grok classifier for parquet

是否可以为 Parquet 文件创建 grok 分类器?如果是这样,我在哪里可以找到示例?

我正在使用 AWS Glue Catalog 并尝试在 Parquet 文件之上创建外部 table。我希望分类器根据文件的列之一拆分文件。

我的所有文件都有 "table" 列,文件中的所有记录都具有相同的 table。

我的S3结构是这样的

- s3://my-bucket/my-prefix/table1/...
- s3://my-bucket/my-prefix/table2/...

不,分类器不用于数据的条件解析和移动到不同的 tables。

您可以编写 lambda/ecs/glue-job(取决于处理时间),它将获取这些文件并移动到 s3 存储桶中的 table 个明智的文件夹。例如s3-data-lake/ingestion/table1、s3-data-lake/ingestion/table2 等。然后你可以 运行 爬行到 s3-data-lake/ingestion/ 这将创建所有胶水 tables.