30TB左右的数据选择Graph DB需要考虑哪些因素

What are the factors to consider while choosing a Graph DB for about 30 TB data

我正在开发一个软件系统(图形数据库)来研究多个组件之间的互连。它最终可能会产生大约 30 TB 的数据。我想知道在选择正确的数据库时要考虑的所有因素。

我正在寻找的一些选项是 Apache Giraph、TitanDB。我还想知道像 neo4j 或 OrientDB 这样的较小规模的数据库本身是否可以工作

这是一个非常广泛的问题,所以我会准确定义您要查找的内容,因为大小可能有点模糊。

我认为您提供的任何示例图形数据库都可以对那么大的数据进行建模。

您可以问自己的几个 "more detailed" 问题包括:

  1. 你关心Horizontal Scaling吗? 如果是,那么您应该查看 TitanDB、OrientDB 或 DSE Graph,因为 Neo4J(在撰写本文时)不能水平扩展,因此它受到服务器大小的限制。
  2. 标准化语言 query/traversal 语言重要吗? 如果是,那么也许您应该更多地关注 Tinkerpop 供应商,例如 TitanDB、OrientDB、DSE Graph 等。如果否,那么任何选项都适合您。
  3. 我的数据有超级节点吗? 如果是那么你应该看看每个供应商如何处理超级节点。一些供应商 shard,其他供应商使用巧妙的图分区算法。
  4. 你想要多少支持? 如果您需要很多,那么也许您应该考虑强大的企业解决方案,例如 DSE、OrientDB 或 Neo4J。 Neo4J 目前被认为是最流行的图形数据库,并且拥有庞大的支持基础。
  5. 您想使用开源软件吗? 如果是,那么 TitanDB、Neo4j 或 OrientDB 可能适合您

这些只是您在所有供应商之间做出更好决策时可以考虑的一些事项。 注意:您可以考虑许多其他供应商,Blazegraph、HypergraphDB,仅举几例。