HDFS 上非结构化数据的访问控制粒度如何?

How granular is access control on HDFS for unstructured data?

我正在寻找任何一篇技术论文,解释如何对 HDFS 摄取的 非结构化数据进行 访问控制

  1. 粒度级别是否可以小于POSIX-ish文件权限?

  2. 同样,像RecordService这样的产品(来自Cloudera ),为存储组件的安全性提供抽象层,处理非结构化数据?


例如,如果我有一个非常大的电子邮件存档文件(超过 1 TB),我是否可以指定一个比整个文件本身更多的 fine-grained ACL?我正在考虑 电子邮件 headers

  1. 支持的粒度是行和列级别。 See details.
  2. 目前,要使 RecordService 正常工作,您的数据必须组织为 Hive Metastore 表。将来,RecordService 可能会从文件本身推断 structure/schema(但今天不是这种情况)。