使用 AQL（或 Arangojs）从 ArangoDB 获取 d3 数据

Question

我正在构建一个基于 d3 力导向图并在后端使用 ArangoDB 的应用程序，我希望能够尽可能高效地从 Arango 动态加载节点和 link 数据。

我不是 d3 方面的专家，但总的来说力布局似乎希望将其数据作为节点数组和 link 数组，这些数组以实际节点对象作为其源和目标，像这样：

var nodes = [
        {id: 0, reflexive: false},
        {id: 1, reflexive: true },
        {id: 2, reflexive: false}
    ],
    links = [
        {source: nodes[0], target: nodes[1], left: false, right: true },
        {source: nodes[1], target: nodes[2], left: false, right: true }
    ];

目前我正在使用以下AQL查询来获取相邻节点，但它非常麻烦。部分困难在于，即使未遍历这些边，我也想包含节点的边信息（以便显示节点在从数据库加载 link 之前拥有的 link 的数量） .

LET docId = "ExampleDocClass/1234567"

 // get data for all the edges
LET es = GRAPH_EDGES('EdgeClass',docId,{direction:'any',maxDepth:1,includeData:true})

// create an array of all the neighbor nodes
LET vArray = ( 
    FOR v IN GRAPH_TRAVERSAL('EdgeClass',docId[0],'any',{ maxDepth:1})
        FOR v1 IN v RETURN v1.vertex
    )

// using node array, return inbound and outbound for each node 
LET vs = (
    FOR v IN vArray
        // inbound and outbound are separate queries because I couldn't figure out
        // how to get Arango to differentiate inbout and outbound in the query results
        LET oe = (FOR oe1 IN GRAPH_EDGES('EdgeClass',v,{direction:'outbound',maxDepth:1,includeData:true}) RETURN oe1._to)
        LET ie = (FOR ie1 IN GRAPH_EDGES('EdgeClass',v,{direction:'inbound',maxDepth:1,includeData:true}) RETURN ie1._from)
        RETURN {'vertexData': v, 'outEdges': oe, 'inEdges': ie}
    )
RETURN {'edges':es,'vertices':vs}

最终输出如下所示： http://pastebin.com/raw.php?i=B7uzaWxs ...几乎可以直接读入 d3（我只需要进行一点重复数据删除）。

我的图形节点有大量 link，因此性能很重要（无论是服务器和客户端的负载，还是两者之间通信的文件大小）。除了简单地扩展相邻节点之外，我还计划创建各种命令来与图形进行交互。有没有办法更好地构建这个 AQL 查询（例如，通过避免四个单独的图形查询）或完全避免使用 arangojs 函数或 FOXX 应用程序的 AQL，同时仍然以我需要的 d3 格式（包括 link每个节点的数据）？

Answer 1

抱歉回复晚了，我们正忙于构建 v2.8 ;) 我建议在数据库方面做尽可能多的事情，因为通过网络复制和 serializing/deserializing JSON 通常很昂贵，因此传输尽可能少的数据应该是一个很好的目标。

首先，我使用了您的查询并在我创建的示例数据集上执行了它（我的数据集中命中了约 800 个顶点和 800 条边）作为基线，我使用了你的查询的执行时间，在我的例子中是 ~5.0s

所以我试图创建与您仅在 AQL 中需要的完全相同的结果。我在您的查询中发现了一些改进： 1. GRAPH_NEIGHBORS比GRAPH_EDGES快一点。 2. 如果不需要数据，请尽可能避免使用 {includeData: true} 特别是如果你需要 to/from vertices._id 只有 GRAPH_NEIGHBORS 和 {includeData: false} 比 GRAPH_EDGES 好一个数量级。 3. GRAPH_NEIGHBORS 是去重的，GRAPH_EDGES 不是。在您的情况下，这似乎是需要的。 3. 你可以在那里摆脱几个子查询。

所以这是我能想到的纯 AQL 查询：

LET docId = "ExampleDocClass/1234567"
LET edges = GRAPH_EDGES('EdgeClass',docId,{direction:'any',maxDepth:1,includeData:true})
LET verticesTmp = (FOR v IN GRAPH_NEIGHBORS('EdgeClass', docId, {direction: 'any', maxDepth: 1, includeData: true})
  RETURN {
    vertexData: v,
    outEdges: GRAPH_NEIGHBORS('EdgeClass', v, {direction: 'outbound', maxDepth: 1, includeData: false}),
    inEdges: GRAPH_NEIGHBORS('EdgeClass', v, {direction: 'inbound', maxDepth: 1, includeData: false})
  })
LET vertices = PUSH(verticesTmp, {
  vertexData: DOCUMENT(docId),
  outEdges: GRAPH_NEIGHBORS('EdgeClass', docId, {direction: 'outbound', maxDepth: 1, includeData: false}),
  inEdges: GRAPH_NEIGHBORS('EdgeClass', docId, {direction: 'inbound', maxDepth: 1, includeData: false})
})
RETURN { edges, vertices }

这会产生与您的查询相同的结果格式，并且具有连接到 docId 的每个顶点在顶点中仅存储一次的优点。 docId 本身也只在顶点中存储一次。客户端不需要重复数据删除。但是，在每个顶点的 outEdges / inEdges 中，所有连接的顶点也恰好一次，我不知道你是否需要知道这个列表中的顶点之间是否也有多个边。

此查询在我的数据集上使用 ~0.06s。

但是，如果您付出更多努力，您还可以考虑在 Foxx 应用程序中使用手工制作的遍历。这有点复杂，但在您的情况下可能会更快，因为您执行的子查询更少。此代码可能如下所示：

var traversal = require("org/arangodb/graph/traversal");
var result = {
  edges: [],
  vertices: {}
}
var myVisitor = function (config, result, vertex, path, connected) {
  switch (path.edges.length) {
    case 0:
      if (! result.vertices.hasOwnProperty(vertex._id)) {
        // If we visit a vertex, we store it's data and prepare out/in
        result.vertices[vertex._id] = {
          vertexData: vertex,
          outEdges: [],
          inEdges: []
        };
      }

      // No further action
      break;
    case 1:
      if (! result.vertices.hasOwnProperty(vertex._id)) {
        // If we visit a vertex, we store it's data and prepare out/in
        result.vertices[vertex._id] = {
          vertexData: vertex,
          outEdges: [],
          inEdges: []
        };
      }
      // First Depth, we need EdgeData
      var e = path.edges[0];
      result.edges.push(e);
      // We fill from / to for both vertices
      result.vertices[e._from].outEdges.push(e._to);
      result.vertices[e._to].inEdges.push(e._from);
      break;
    case 2:
      // Second Depth, we do not need EdgeData
      var e = path.edges[1];
      // We fill from / to for all vertices that exist
      if (result.vertices.hasOwnProperty(e._from)) {
        result.vertices[e._from].outEdges.push(e._to);
      }
      if (result.vertices.hasOwnProperty(e._to)) {
        result.vertices[e._to].inEdges.push(e._from);
      }
      break;
  }
};
var config = {
  datasource: traversal.generalGraphDatasourceFactory("EdgeClass"),
  strategy: "depthfirst",
  order: "preorder",
  visitor: myVisitor,
  expander: traversal.anyExpander,
  minDepth: 0,
  maxDepth: 2
};
var traverser = new traversal.Traverser(config);
traverser.traverse(result, {_id: "ExampleDocClass/1234567"});
return {
  edges: result.edges,
  vertices: Object.keys(result.vertices).map(function (key) {
              return result.vertices[key];
            })
};

这个遍历的想法是访问从起始顶点到最多两条边的所有顶点。 0 - 1 深度的所有顶点都将与数据一起添加到顶点对象中。来自起始顶点的所有边都将与数据一起添加到边列表中。深度为 2 的所有顶点只会在结果中设置 outEdges / inEdges。

这样做的好处是，vertices 是重复数据删除的。和 outEdges/inEdges 多次包含所有连接的顶点，如果它们之间有多个边。

此遍历在 ~0.025s 内对我的数据集执行，因此它的速度是仅 AQL 解决方案的两倍。

希望这仍然对您有所帮助 ;)

使用 AQL（或 Arangojs）从 ArangoDB 获取 d3 数据

Getting data for d3 from ArangoDB using AQL (or arangojs)

javascript

d3.js

arangodb