从 gml NetworkX 获取 write/read 之后的节点

Getting a node after write/read from gml NetworkX

我在读取 GML 图后获取节点时遇到问题。 (很抱歉,我无法为您提供精确的可重现代码,因为我的代码有 500 行长,而且较小的可重现示例给出了奇怪的正确结果)。所以我会尽量描述它:

我创建了一个中等大小的图 G(40k 节点,100 万条边)。我可以通过简单地执行 G['something'] 来通过它的字符串标签访问它的节点。我已经将它写入 GML 文件,然后读取它。现在:我无法像以前那样通过标签访问节点(我得到 KeyError),但我可以通过 ID 访问它们(在编写 GML 文件期间创建的,对吗?)即 G[1] 给我一个 AtlasView:

AtlasView({0: {'weight': 1}, 3253: {'weight': 8}, 9694: {'weight': 1}....

但是0、3253、9694也是id,不是标签。你知道哪里出了问题吗?

这是我的读写代码:

G = nx.Graph()
for mp in mps:
    G.add_node(mp.name, bipartite=0)
    for word in mp.speeches:
        G.add_node(word, bipartite=1)
        if not G.has_edge(mp.name, word):
            G.add_edge(mp.name, word, weight = 1)
        else:
            G[mp.name][word]['weight'] += 1
#Here I can simply acces the node by G[mp.name]
# and the output is i.e. {'wznawiać': {'weight': 2}, 'obrady':....
nx.write_gml(G, "test.gml")

G = nx.read_gml('test.gml')
#Here I can't acces the node by G[mp.name], but only by it's id

此外,当我尝试在较小的示例中重现问题时,我得到了正确的结果。也许是编码问题?

这与其说是一种解决方案,不如说是一种变通方法,但是当您可以再次生成文件时它会起作用(如果您有解决方案,我会很高兴看到它,因为我已经花了一天时间研究它):

TL;DR: 如果你能再次生成图表,就做一次并以其他格式保存。

我学到了什么: 不知何故,在我的例子中,当 reading(文件本身没问题,我已经在文本编辑器中手动检查过)较大的 NetworkX Graph 形成 .gml 文件时,该图已损坏 - IDs (为文件自动生成)和标签(可以访问节点的标签)被移动。看起来像这样(这段代码可以工作。只有在分析更大的数据图时才会出现问题):

#prepare the data:
G = nx.Graph()
G.add_node("String1")
G.add_node("String2")
G.add_edge("String1", "String2", weight = 1)
nx.write_graphml(G, "test.graphml")
nx.write_gml(G, "test.gml")

#now reading:
gml = nx.read_gml('test.gml')
graphml = nx.read_graphml('test.graphml')

#let's sort the edges by weight just to make this example clearer:
seGml = sorted(gml.edges(data=True),key= lambda x: x[2]['weight'],reverse=True)
seGraph = sorted(graphml.edges(data=True),key= lambda x: x[2]['weight'],reverse=True)
print(seGml[0])
print(seGraph[0])

给出输出:

(0,1, {'weight': 1})
('String1', 'String2', {'weight': 1})

在 gml 的情况下,不可能通过 G["String1"] 获取节点(给出 KeyError)并且将所有属性放入字典中有时会提供到达节点标签的能力,即:dictOfAtts[0]给出'String1',但有时也会给出Key错误

解决方法: 如果您可以再次生成图表,请执行此操作,并以其他格式编写(.graphml 对我有用)。但是您不能只读取 .gml,然后将其写入 .graphml 并再次读取 .graphml - 它仍然已损坏。