Ranger 策略不适用于 HDFS NFS 访问

Ranger policies don't work for HDFS NFS access

我有一个 HDFS 资源的管理员策略,看起来像... 现在尝试以两个不同的用户身份通过​​ hadoop fs <path to the hdfs location> 访问该 HDFS 路径:

# as an unauthorized user
[ml1@HW04 ml1c]$ hadoop fs -ls <path to the hdfs location>
ls: Permission denied: user=ml1, access=EXECUTE, inode="<path to the hdfs location>"

# as an authorized user
[hph_etl@HW04 hph_etl]$ hadoop fs -ls <path to the hdfs location>
Found 4 items
drwxrwxr-x   - hph_etl hph_etl          0 2019-07-31 15:13 <path to the hdfs location>
drwxrwxr-x   - hph_etl hph_etl          0 2019-08-07 10:52 <path to the hdfs location>
drwxrwxr-x   - hph_etl hph_etl          0 2019-07-31 14:28 <path to the hdfs location>
drwxrwxr-x   - hph_etl hph_etl          0 2019-07-26 16:12 <path to the hdfs location>

按预期工作。现在在本地文件系统上通过 ls -lh <nfs path to the hdfs location> 尝试:

# as an unauthorized user
[ml1@HW04 ml1c]$ ls -lh <nfs path to the hdfs location>
total 2.0K
drwxrwxr-x. 4 hph_etl hph_etl 128 Jul 31 15:13 export
drwxrwxr-x. 5 hph_etl hph_etl 160 Aug  7 10:52 import
drwxrwxr-x. 5 hph_etl hph_etl 160 Jul 31 14:28 storage
drwxrwxr-x. 3 hph_etl hph_etl  96 Jul 26 16:12 tests

# as an authorized user
[hph_etl@HW04 hph_etl]$ ls -lh <nfs path to the hdfs location>
total 2.0K
drwxrwxr-x. 4 hph_etl hph_etl 128 Jul 31 15:13 export
drwxrwxr-x. 5 hph_etl hph_etl 160 Aug  7 10:52 import
drwxrwxr-x. 5 hph_etl hph_etl 160 Jul 31 14:28 storage
drwxrwxr-x. 3 hph_etl hph_etl  96 Jul 26 16:12 tests

我们看到两个用户都能够通过 NFS 访问 HDFS 位置(尽管只有 hph_etl 用户应该能够访问)。有人知道这里发生了什么吗?任何调试提示或修复?

更新:

显然,这不是意外行为。与 Hortonworks 的人交谈,目的是...

对我来说这似乎是一个安全问题,因为我可以轻松地做这样的事情

$ cd /hdfs_nfs_mount/some/private/location
$ head some_private_file.txt
<shows all the contents>

# even when Ranger would rather this user not go there...
$ whoami
<some unauthorized user>
$ hadoop fs -ls /some/private/location
ls: Permission denied: user=<some unauthorized user>, access=EXECUTE, inode="/some/private/location"

如果在一个常规集群节点上,该节点刚刚将所有 HDFS 安装到 HDFS 根目录下的服务器。不写这个作为答案是因为有点希望这不是答案;会继续找的。

显然,这不是意外行为。与 Hortonworks 的人交谈,目的是...

使用基于 POSIX 限制的权限,通过 NFS 将 HDFS 的特定部分挂载到机器上 然后让 NiFi(例如来自 HDF)不断监听这些位置,然后将数据加载到 HDFS 中其他受 Ranger 保护的位置 对我来说,这似乎是一个安全问题,因为我可以轻松地做这样的事情

$ cd /hdfs_nfs_mount/some/private/location
$ head some_private_file.txt
<shows all the contents>

# even when Ranger would rather this user not go there...
$ whoami
<some unauthorized user>
$ hadoop fs -ls /some/private/location
ls: Permission denied: user=<some unauthorized user>, access=EXECUTE, inode="/some/private/location"

如果在常规集群节点上,所有 HDFS 都安装到 HDFS 根目录下的服务器。

看来传统的NFS使用方式是...

  • 在边缘集群节点上安装了 HDFS NFS 网关
  • 使用只写,POSIX 权限 将此 NFS 安装到客户端机器(例如通过 samba)(Apache Ranger 在这里无能为力)
  • 在边缘节点和自然 SID 上使用 SSSD(基本上可以用于 link unix creds 到 active directory creds)或在客户端节点上使用 Active Directory(假设 Windows 机器)以访问客户端机器上挂载的 NFS 共享
  • 设置一个 NiFi(或其他 ETL)进程来检测放置在这个共享中的数据并将其带到指定的 HDFS 位置(此时可以执行 Ranger 策略)

因此,HDFS NFS 网关不适合读取文件或浏览 HDFS。为此,建议在 Ambari 中使用创建用户帐户来浏览和下载各种 and give them access to FileViews 文件( 受到 Ranger 策略的保护)。