带有标记输出的深度图遍历
Deep graph traversals with labelled output
我正在尝试编写一个函数来生成 Gremlin 查询。该函数的输入是一个字符串数组,其中包含我们想要从图中 return 得到的关系名称。该图表包含有关电视和电影的信息。所以一个示例输入是:
[[seasons, episodes, talent], [studios, movies, images]]
字符串指的是边缘名称。
我需要 return 一个 JSON 对象,其中包含由边名称标记的顶点的 ID,但我发现 Germlin 查询非常困难。
到目前为止,我已经设法编写了这个查询:
g.V('network_1').out().where(__.inE().
hasLabel('seasons')).
group().
by(__.inE().label()).
by(__.group().by(T.id).
by(__.out().where(__.inE().
hasLabel('episodes')).
group().
by(__.inE().label()).
by(__.group().by(T.id).
by(__.out().where(__.inE().
hasLabel('talent')).
group().
by(__.inE().label()).by(T.id))))).
next()
这给出了这个输出:
{
"seasons": {
"season_2": {
"episodes": {
"episode_4": {
"talent": [
"talent_8",
"talent_6",
"talent_7"
]
}
}
},
"season_1": {
"episodes": {
"episode_2": {
"talent": [
"talent_2",
"talent_3"
]
},
"episode_3": {
"talent": [
"talent_4",
"talent_5"
]
},
"episode_1": {
"talent": [
"talent_1"
]
}
}
}
}
}
那个输出正是我要找的东西,但问题是:
- 该查询似乎过于复杂
- 要查询的边数组可以是任意大小。在我的例子中它是 3,但它可以是任何东西。
- 示例中有 2 个边数组要查询,理想情况下我可以将它们组合成一个查询
我正在 Python 中写这篇文章,非常感谢任何帮助或指点。
示例内容:
g.addV('show').property('id', 'show_1').as('show_1').
addV('season').property('id', 'season_1').as('season_1').
addV('season').property('id', 'season_2').as('season_2').
addV('episode').property('id', 'episode_1').as('episode_1').
addV('episode').property('id', 'episode_2').as('episode_2').
addV('episode').property('id', 'episode_3').as('episode_3').
addV('episode').property('id', 'episode_4').as('episode_4').
addV('talent').property('id', 'talent_1').as('talent_1').
addV('talent').property('id', 'talent_2').as('talent_2').
addV('talent').property('id', 'talent_3').as('talent_3').
addV('talent').property('id', 'talent_4').as('talent_4').
addV('talent').property('id', 'talent_5').as('talent_5').
addV('talent').property('id', 'talent_6').as('talent_6').
addV('talent').property('id', 'talent_7').as('talent_7').
addV('talent').property('id', 'talent_8').as('talent_8').
addE('seasons').from('show_1').to('season_1').
addE('seasons').from('show_1').to('season_2').
addE('episodes').from('season_1').to('episode_1').
addE('episodes').from('season_1').to('episode_2').
addE('episodes').from('season_1').to('episode_3').
addE('episodes').from('season_2').to('episode_4').
addE('talent').from('episode_1').to('talent_1').
addE('talent').from('episode_2').to('talent_2').
addE('talent').from('episode_2').to('talent_3').
addE('talent').from('episode_3').to('talent_4').
addE('talent').from('episode_3').to('talent_5').
addE('talent').from('episode_4').to('talent_6').
addE('talent').from('episode_4').to('talent_7').
addE('talent').from('episode_4').to('talent_8').iterate()
对于 Gremlin 的 JVM 语言变体,我认为 tree()
对您很有帮助:
gremlin> g.V().out('seasons').
......1> out('episodes').
......2> out('talent').
......3> tree().
......4> by('id').next()
==>show_1={season_2={episode_4={talent_6={}, talent_8={}, talent_7={}}}, season_1={episode_2={talent_3={}, talent_2={}}, episode_3={talent_5={}, talent_4={}}, episode_1={talent_1={}}}}
但据我所知 tree()
脱离 JVM,在你的情况下 Python,没有得到很好的支持。不过你可以试试。
另一种选择,现在更适合 Python,是像您在示例中所做的那样进行一些嵌套分组。你注意到它很复杂,但我认为它只是因为到处都有回溯过滤。我还要补充一点,虽然它可能看起来有效,但我感觉它可能不会在所有情况下都有效,因为使用 by(__.inE().label())
进行分组,因为它只查看每个被分组顶点的第一个边标签.它依赖于数据的结构才能成功,因此如果突然 inE()
返回您没有预料到的内容,它可能会在将来为您设置一个错误。我想你可以通过添加像 inE('seasons
).label()` 这样的标签来限制这种机会,但这似乎有点不对劲。
我倾向于支持 Gremlin,因为它的意图可以立即阅读。因此,我采用了以下方法(它与您提供的所有键值的输出不完全匹配,但我认为您会找到与您想要的匹配的数据:
gremlin> g.V().out('seasons').
......1> out('episodes').
......2> out('talent').
......3> path().
......4> by('id').
......5> group().
......6> by(limit(local,1)).
......7> by(tail(local,3).
......8> group().
......9> by(limit(local,1)).
.....10> by(tail(local,2).
.....11> group().
.....12> by(limit(local,1)).
.....13> by(tail(local).fold())))
==>[show_1:[season_2:[episode_4:[talent_6,talent_7,talent_8]],season_1:[episode_2:[talent_2,talent_3],episode_3:[talent_4,talent_5],episode_1:[talent_1]]]]
我喜欢这种方法,因为导航部分非常简单和直接 - out()
在“季节”上,out()
在“剧集”上,out()
在“人才”上。毫无疑问正在收集哪些数据。在第 3 行,我们收集路径,然后对其进行嵌套分组,以构建我用 tree()
步生成的类似树状结构。事实上,这个在输出方面更好一些,因为它不包括空叶。
为了进一步区分这一点,首先考虑我们正在使用的基本输出:
gremlin> g.V().out('seasons').
......1> out('episodes').
......2> out('talent').
......3> path().
......4> by('id')
==>[show_1,season_1,episode_1,talent_1]
==>[show_1,season_1,episode_2,talent_2]
==>[show_1,season_1,episode_2,talent_3]
==>[show_1,season_1,episode_3,talent_4]
==>[show_1,season_1,episode_3,talent_5]
==>[show_1,season_2,episode_4,talent_6]
==>[show_1,season_2,episode_4,talent_7]
==>[show_1,season_2,episode_4,talent_8]
我们想在这些路径的每一层上进行分组,这意味着要进行嵌套 group()
。考虑第一层:
gremlin> g.V().out('seasons').
......1> out('episodes').
......2> out('talent').
......3> path().
......4> by('id').
......5> group().
......6> by(limit(local,1)).
......7> by(tail(local,3).fold())
==>[show_1:[[season_1,episode_1,talent_1],[season_1,episode_2,talent_2],[season_1,episode_2,talent_3],[season_1,episode_3,talent_4],[season_1,episode_3,talent_5],[season_2,episode_4,talent_6],[season_2,episode_4,talent_7],[season_2,episode_4,talent_8]]]
以上是所有“节目”的汇总。请注意我们如何使用 tail(local,3)
从每个路径对象中删除“show_1”,因为我们已经对其进行了分组。接下来我们要对“季节”进行分组:
gremlin> g.V().out('seasons').
......1> out('episodes').
......2> out('talent').
......3> path().
......4> by('id').
......5> group().
......6> by(limit(local,1)).
......7> by(tail(local,3).
......8> group().
......9> by(limit(local,1)).
.....10> by(tail(local,2).fold()))
==>[show_1:[season_2:[[episode_4,talent_6],[episode_4,talent_7],[episode_4,talent_8]],season_1:[[episode_1,talent_1],[episode_2,talent_2],[episode_2,talent_3],[episode_3,talent_4],[episode_3,talent_5]]]]
这里我们知道“季节”在第一个位置,所以我们用 limit(local,1)
取第一个,因为我们不再需要季节来进一步分组,所以我们用 tail(local,2)
把它砍掉.这次是“2”而不是“3”,因为我们要减少的路径被缩短为 season->episode->talent
,现在使用“2”我们只需要 episode->talent
。希望这能进一步分解正在发生的事情,您可以根据您的需要调整此查询。
我正在尝试编写一个函数来生成 Gremlin 查询。该函数的输入是一个字符串数组,其中包含我们想要从图中 return 得到的关系名称。该图表包含有关电视和电影的信息。所以一个示例输入是:
[[seasons, episodes, talent], [studios, movies, images]]
字符串指的是边缘名称。
我需要 return 一个 JSON 对象,其中包含由边名称标记的顶点的 ID,但我发现 Germlin 查询非常困难。
到目前为止,我已经设法编写了这个查询:
g.V('network_1').out().where(__.inE().
hasLabel('seasons')).
group().
by(__.inE().label()).
by(__.group().by(T.id).
by(__.out().where(__.inE().
hasLabel('episodes')).
group().
by(__.inE().label()).
by(__.group().by(T.id).
by(__.out().where(__.inE().
hasLabel('talent')).
group().
by(__.inE().label()).by(T.id))))).
next()
这给出了这个输出:
{
"seasons": {
"season_2": {
"episodes": {
"episode_4": {
"talent": [
"talent_8",
"talent_6",
"talent_7"
]
}
}
},
"season_1": {
"episodes": {
"episode_2": {
"talent": [
"talent_2",
"talent_3"
]
},
"episode_3": {
"talent": [
"talent_4",
"talent_5"
]
},
"episode_1": {
"talent": [
"talent_1"
]
}
}
}
}
}
那个输出正是我要找的东西,但问题是:
- 该查询似乎过于复杂
- 要查询的边数组可以是任意大小。在我的例子中它是 3,但它可以是任何东西。
- 示例中有 2 个边数组要查询,理想情况下我可以将它们组合成一个查询
我正在 Python 中写这篇文章,非常感谢任何帮助或指点。
示例内容:
g.addV('show').property('id', 'show_1').as('show_1').
addV('season').property('id', 'season_1').as('season_1').
addV('season').property('id', 'season_2').as('season_2').
addV('episode').property('id', 'episode_1').as('episode_1').
addV('episode').property('id', 'episode_2').as('episode_2').
addV('episode').property('id', 'episode_3').as('episode_3').
addV('episode').property('id', 'episode_4').as('episode_4').
addV('talent').property('id', 'talent_1').as('talent_1').
addV('talent').property('id', 'talent_2').as('talent_2').
addV('talent').property('id', 'talent_3').as('talent_3').
addV('talent').property('id', 'talent_4').as('talent_4').
addV('talent').property('id', 'talent_5').as('talent_5').
addV('talent').property('id', 'talent_6').as('talent_6').
addV('talent').property('id', 'talent_7').as('talent_7').
addV('talent').property('id', 'talent_8').as('talent_8').
addE('seasons').from('show_1').to('season_1').
addE('seasons').from('show_1').to('season_2').
addE('episodes').from('season_1').to('episode_1').
addE('episodes').from('season_1').to('episode_2').
addE('episodes').from('season_1').to('episode_3').
addE('episodes').from('season_2').to('episode_4').
addE('talent').from('episode_1').to('talent_1').
addE('talent').from('episode_2').to('talent_2').
addE('talent').from('episode_2').to('talent_3').
addE('talent').from('episode_3').to('talent_4').
addE('talent').from('episode_3').to('talent_5').
addE('talent').from('episode_4').to('talent_6').
addE('talent').from('episode_4').to('talent_7').
addE('talent').from('episode_4').to('talent_8').iterate()
对于 Gremlin 的 JVM 语言变体,我认为 tree()
对您很有帮助:
gremlin> g.V().out('seasons').
......1> out('episodes').
......2> out('talent').
......3> tree().
......4> by('id').next()
==>show_1={season_2={episode_4={talent_6={}, talent_8={}, talent_7={}}}, season_1={episode_2={talent_3={}, talent_2={}}, episode_3={talent_5={}, talent_4={}}, episode_1={talent_1={}}}}
但据我所知 tree()
脱离 JVM,在你的情况下 Python,没有得到很好的支持。不过你可以试试。
另一种选择,现在更适合 Python,是像您在示例中所做的那样进行一些嵌套分组。你注意到它很复杂,但我认为它只是因为到处都有回溯过滤。我还要补充一点,虽然它可能看起来有效,但我感觉它可能不会在所有情况下都有效,因为使用 by(__.inE().label())
进行分组,因为它只查看每个被分组顶点的第一个边标签.它依赖于数据的结构才能成功,因此如果突然 inE()
返回您没有预料到的内容,它可能会在将来为您设置一个错误。我想你可以通过添加像 inE('seasons
).label()` 这样的标签来限制这种机会,但这似乎有点不对劲。
我倾向于支持 Gremlin,因为它的意图可以立即阅读。因此,我采用了以下方法(它与您提供的所有键值的输出不完全匹配,但我认为您会找到与您想要的匹配的数据:
gremlin> g.V().out('seasons').
......1> out('episodes').
......2> out('talent').
......3> path().
......4> by('id').
......5> group().
......6> by(limit(local,1)).
......7> by(tail(local,3).
......8> group().
......9> by(limit(local,1)).
.....10> by(tail(local,2).
.....11> group().
.....12> by(limit(local,1)).
.....13> by(tail(local).fold())))
==>[show_1:[season_2:[episode_4:[talent_6,talent_7,talent_8]],season_1:[episode_2:[talent_2,talent_3],episode_3:[talent_4,talent_5],episode_1:[talent_1]]]]
我喜欢这种方法,因为导航部分非常简单和直接 - out()
在“季节”上,out()
在“剧集”上,out()
在“人才”上。毫无疑问正在收集哪些数据。在第 3 行,我们收集路径,然后对其进行嵌套分组,以构建我用 tree()
步生成的类似树状结构。事实上,这个在输出方面更好一些,因为它不包括空叶。
为了进一步区分这一点,首先考虑我们正在使用的基本输出:
gremlin> g.V().out('seasons').
......1> out('episodes').
......2> out('talent').
......3> path().
......4> by('id')
==>[show_1,season_1,episode_1,talent_1]
==>[show_1,season_1,episode_2,talent_2]
==>[show_1,season_1,episode_2,talent_3]
==>[show_1,season_1,episode_3,talent_4]
==>[show_1,season_1,episode_3,talent_5]
==>[show_1,season_2,episode_4,talent_6]
==>[show_1,season_2,episode_4,talent_7]
==>[show_1,season_2,episode_4,talent_8]
我们想在这些路径的每一层上进行分组,这意味着要进行嵌套 group()
。考虑第一层:
gremlin> g.V().out('seasons').
......1> out('episodes').
......2> out('talent').
......3> path().
......4> by('id').
......5> group().
......6> by(limit(local,1)).
......7> by(tail(local,3).fold())
==>[show_1:[[season_1,episode_1,talent_1],[season_1,episode_2,talent_2],[season_1,episode_2,talent_3],[season_1,episode_3,talent_4],[season_1,episode_3,talent_5],[season_2,episode_4,talent_6],[season_2,episode_4,talent_7],[season_2,episode_4,talent_8]]]
以上是所有“节目”的汇总。请注意我们如何使用 tail(local,3)
从每个路径对象中删除“show_1”,因为我们已经对其进行了分组。接下来我们要对“季节”进行分组:
gremlin> g.V().out('seasons').
......1> out('episodes').
......2> out('talent').
......3> path().
......4> by('id').
......5> group().
......6> by(limit(local,1)).
......7> by(tail(local,3).
......8> group().
......9> by(limit(local,1)).
.....10> by(tail(local,2).fold()))
==>[show_1:[season_2:[[episode_4,talent_6],[episode_4,talent_7],[episode_4,talent_8]],season_1:[[episode_1,talent_1],[episode_2,talent_2],[episode_2,talent_3],[episode_3,talent_4],[episode_3,talent_5]]]]
这里我们知道“季节”在第一个位置,所以我们用 limit(local,1)
取第一个,因为我们不再需要季节来进一步分组,所以我们用 tail(local,2)
把它砍掉.这次是“2”而不是“3”,因为我们要减少的路径被缩短为 season->episode->talent
,现在使用“2”我们只需要 episode->talent
。希望这能进一步分解正在发生的事情,您可以根据您的需要调整此查询。