HDFS 审计日志格式和解释

HDFS Audit Logs Format and explanation

我注意到大多数博客都在谈论如何设置 HDFS 审计日志。 但是是否有来源可以确定每个操作/cmd 代表什么?

我在 Hadoop HowToConfigure wiki 中找到了以下 table:

但我不知道的是,在所有的操作中,它们代表什么。

例如我试图通过读/写操作对操作进行分类,但似乎 "open" 是读/写的通用命令,其余命令更像是 DDL 和访问控制操作。

我知道在 Cloudera 或 HDP 等不同的 Hadoop 发行版中,它们有自己的方式来告诉审计日志,但默认操作代表什么?例如create - 可能表示创建文件/mkdirs 可能表示配置单元的 mkdir table / 配置单元分区。

最重要的是有没有办法区分读/写操作?

如果您想到大多数典型的 Hadoop 作业(Pig、Hive、MR、SQOOP、Spark),您很少会覆盖数据,因此创建意味着写入,打开意味着读取。如果您要覆盖数据,您实际上会删除它,然后重新创建它。

要区分哪个服务执行了操作,您还需要查看其他来源(Hive 审计日志、YARN RM 审计日志)或从用户和目录推断服务(/usr/hive/warehouse/* 可能是蜂巢查询)。

覆盖/追加引用:

How to force STORE (overwrite) to HDFS in Pig?

How does Sqoop append command will work in hadoop

Hive 审核日志:

https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-AuditLogs