Neo4j - 高可用性和分布式机制之间的区别?

Neo4j - Difference between High Availability and Distributed Mechanism?

Neo4j 通过一个名为 High Availability 的概念来解释聚类。而且,我所了解的集群与hadoop知识是分布式计算。

这两个概念有什么区别?

谢谢

Neo4j 高可用性是指一种扩展 Neo4j 可以响应的请求数量的方法。 Neo4j HA 实现了具有复制集群模型的主从,以实现高可用性扩展。这意味着所有写入都进入 "master" 服务器(或从从服务器代理到主服务器)并且更新在从服务器之间同步。读取可以发送到集群中的任何服务器,扩展数据库可以响应的请求数量。

将此与分布式计算进行比较,分布式计算是描述如何在大量机器上并行执行计算操作的通用术语。一个关键的区别是数据分片的概念。使用 Neo4j,集群中的每个服务器都包含图形的完整副本,而使用分布式文件系统(如 HDFS),数据被分片,每台机器只存储整个数据集的一小部分。

Neo4j 不对图进行分片的部分原因是因为图是高度连接的数据结构,遍历 distributed/sharded 图会涉及大量网络延迟,因为遍历 "hops"从机器到机器。