澄清网络的顺序和规模

Clarification on order and size of network

在社交图中,节点数远小于边数是否很常见?

在我对 Twitter 网络的分析中,我得到了这样的结果

节点数 = 20,000

边 = 335,000

如何解释数字之间的这个巨大差距

是的,这是一个常见的 属性 图,因为节点之间潜在关系的数量以与节点数量的平方成正比的速率增加(下面的精确公式)。看看随着组的扩展,组之间的互连是如何工作的。

虽然我们实际上可以创建节点,但我们可以通过仅查看可以产生有效非冗余关系的所有可能组合的计数来模拟这一点,并在集合最大连接时显示计数。

WITH range(1,100) as id
UNWIND id as a
UNWIND id as b
WITH a, b
WHERE a < b
RETURN count(*)

如果他们都是链接的,没有多余的关系,我们最终会得到来自 100 个最大链接个体的 4950 个关系。对于 1000 个最大程度联系的人,你将拥有 499500 个关系。对于 10000,您将有 49995000 个关系。

有一个公式可以计算出一个完整图可能的边数,应用它比我们之前的查询更简单:

WITH 100 as n
RETURN (n * (n - 1)) / 2.0

社交网络都是关于个人之间的无数联系,正如您所看到的,随着节点数量的增加,他们之间可能的关系数量会猛增,即使他们没有接近完整的图。

您还可以考虑,在社交图中,可能会有相当多的朋友集群,每个集群可能具有最大的联系,这将推高关系计数,更何况是集群的大小。