pandas - 如何合并 DataFrame 中的选定行
pandas - how to combine selected rows in a DataFrame
我一直在阅读一个巨大的 (5 GB) gzip 文件,格式为:
User1 User2 W
0 11 12 1
1 12 11 2
2 13 14 1
3 14 13 2
这基本上是具有一定权重W的用户之间连接的有向图表示。由于文件太大,我尝试通过networkx读取它,构建一个有向图然后将其设置为Undirected。但是花了太多时间。所以我在考虑做同样的事情来分析 pandas 数据框。我想 return 以前的数据框,格式为:
User1 User2 W
0 11 12 3
1 13 14 3
其中两个方向上的公共链接已合并为一个,其中单个权重的总和为 W。任何帮助将不胜感激。
可能有更简洁的方法,但这个方法有效。主要技巧只是规范化数据,使 User1 始终是较小的数字 ID。然后你可以使用 groupby
因为 11,12
和 12,11
现在被认为代表相同的东西。
In [330]: df = pd.DataFrame({"User1":[11,12,13,14],"User2":[12,11,14,13],"W":[1,2,1,2]})
In [331]: df['U1'] = df[['User1','User2']].min(axis=1)
In [332]: df['U2'] = df[['User1','User2']].max(axis=1)
In [333]: df = df.drop(['User1','User2'],axis=1)
In [334]: df.groupby(['U1','U2'])['W'].sum()
Out[334]:
U1 U2
11 12 3
13 14 3
Name: W, dtype: int64
为了避免创建新变量的更简洁的代码,您可以将中间的 3 个步骤替换为:
In [400]: df.ix[df.User1>df.User2,['User1','User2']] = df.ix[df.User1>df.User2,['User2','User1']].values
请注意,列切换可能比您想象的要复杂,请参阅此处:What is correct syntax to swap column values for selected rows in a pandas data frame using just one line?
至于使此代码总体上变快,这将取决于您的数据。我认为上面的代码不会像您可能做的其他事情一样重要。例如,您的问题应该适用于分块方法,您可以在其中迭代代码的各个部分,并在每次通过时逐渐缩小它。在这种情况下,您需要考虑的主要事情是在分块之前对数据进行排序,以最大程度地减少需要进行的传递次数。但是这样做应该可以让您在内存中完成所有工作。
我一直在阅读一个巨大的 (5 GB) gzip 文件,格式为:
User1 User2 W
0 11 12 1
1 12 11 2
2 13 14 1
3 14 13 2
这基本上是具有一定权重W的用户之间连接的有向图表示。由于文件太大,我尝试通过networkx读取它,构建一个有向图然后将其设置为Undirected。但是花了太多时间。所以我在考虑做同样的事情来分析 pandas 数据框。我想 return 以前的数据框,格式为:
User1 User2 W
0 11 12 3
1 13 14 3
其中两个方向上的公共链接已合并为一个,其中单个权重的总和为 W。任何帮助将不胜感激。
可能有更简洁的方法,但这个方法有效。主要技巧只是规范化数据,使 User1 始终是较小的数字 ID。然后你可以使用 groupby
因为 11,12
和 12,11
现在被认为代表相同的东西。
In [330]: df = pd.DataFrame({"User1":[11,12,13,14],"User2":[12,11,14,13],"W":[1,2,1,2]})
In [331]: df['U1'] = df[['User1','User2']].min(axis=1)
In [332]: df['U2'] = df[['User1','User2']].max(axis=1)
In [333]: df = df.drop(['User1','User2'],axis=1)
In [334]: df.groupby(['U1','U2'])['W'].sum()
Out[334]:
U1 U2
11 12 3
13 14 3
Name: W, dtype: int64
为了避免创建新变量的更简洁的代码,您可以将中间的 3 个步骤替换为:
In [400]: df.ix[df.User1>df.User2,['User1','User2']] = df.ix[df.User1>df.User2,['User2','User1']].values
请注意,列切换可能比您想象的要复杂,请参阅此处:What is correct syntax to swap column values for selected rows in a pandas data frame using just one line?
至于使此代码总体上变快,这将取决于您的数据。我认为上面的代码不会像您可能做的其他事情一样重要。例如,您的问题应该适用于分块方法,您可以在其中迭代代码的各个部分,并在每次通过时逐渐缩小它。在这种情况下,您需要考虑的主要事情是在分块之前对数据进行排序,以最大程度地减少需要进行的传递次数。但是这样做应该可以让您在内存中完成所有工作。