带 RAID 的 HDP 集群?
HDP cluster with RAID?
您在 HDP 集群上使用 RAID1 的体验如何?
我有两个选择:
- 为主节点和 zoo 节点设置 RAID 1,不要在 kafka broker、hbase regionservers 和 yarn nodemanager 等从属节点上使用 RAID。
即使我失去一个从节点,我也会有另外两个副本。
在我看来,RAID 只会减慢我的集群。
- 尽管如此,使用 RAID 1 设置所有内容。
你怎么看?您对 HDP 和 RAID 有何体验?
您如何看待从属节点使用 RAID 0?
我建议在 Hadoop 主机上完全不要使用 RAID。有一点需要注意,如果您是 运行 像 Oozie 和 Hive metastore 这样在幕后使用关系数据库的服务,那么 raid 在数据库主机上可能很有意义。
在主节点上,假设您有 Namenode、zookeeper 等——通常冗余是内置在服务中的。对于名称节点,所有数据都存储在两个名称节点上。对于Zookeeper来说,如果你丢失了一个节点,那么其他两个节点就拥有了所有的信息。
Zookeeper 喜欢快速磁盘 - 最好将一个完整的磁盘专用于 zookeeper。如果你有 namenode HA,给 namenode 编辑目录和每个日志节点一个专用磁盘。
对于从节点,datanode 将写入所有磁盘,无论如何都有效地条带化数据。每个 'write' 最多是 HDFS 块大小,因此如果您正在写入一个大文件,您可以在磁盘 1 上获得 128MB,然后在磁盘 2 上获得下一个 128MB 等。
您在 HDP 集群上使用 RAID1 的体验如何?
我有两个选择:
- 为主节点和 zoo 节点设置 RAID 1,不要在 kafka broker、hbase regionservers 和 yarn nodemanager 等从属节点上使用 RAID。
即使我失去一个从节点,我也会有另外两个副本。 在我看来,RAID 只会减慢我的集群。
- 尽管如此,使用 RAID 1 设置所有内容。
你怎么看?您对 HDP 和 RAID 有何体验? 您如何看待从属节点使用 RAID 0?
我建议在 Hadoop 主机上完全不要使用 RAID。有一点需要注意,如果您是 运行 像 Oozie 和 Hive metastore 这样在幕后使用关系数据库的服务,那么 raid 在数据库主机上可能很有意义。
在主节点上,假设您有 Namenode、zookeeper 等——通常冗余是内置在服务中的。对于名称节点,所有数据都存储在两个名称节点上。对于Zookeeper来说,如果你丢失了一个节点,那么其他两个节点就拥有了所有的信息。
Zookeeper 喜欢快速磁盘 - 最好将一个完整的磁盘专用于 zookeeper。如果你有 namenode HA,给 namenode 编辑目录和每个日志节点一个专用磁盘。
对于从节点,datanode 将写入所有磁盘,无论如何都有效地条带化数据。每个 'write' 最多是 HDFS 块大小,因此如果您正在写入一个大文件,您可以在磁盘 1 上获得 128MB,然后在磁盘 2 上获得下一个 128MB 等。