计算数据框中两列中作为相反对存在的唯一值的数量？

Question

我有一个包含数千行用户交互数据的数据框。

我用它只给我 userID 以特定字母开头的用户

df[
df.userA.str.startswith(('b','c','e','f','5')) &
df.userB.str.startswith(('b','c','e','f','5'))
]

它返回了类似这样的东西

   userA column:                           userB column:                           timestamp column: 
   f55570ac-c757-4e1f-b0b2-34997614f929    5ccd7ffd-7776-4a81-81dd-5331972454c2   2017-12-12 00:00:00
   5bfb4313-1d38-4dd2-944d-82bcabea9e31    ebc48322-f8b8-4994-968c-93e8d9e9df1d   2017-12-13 00:03:00
   ebc48322-f8b8-4994-968c-93e8d9e9df1d    5bfb4313-1d38-4dd2-944d-82bcabea9e31   2017-12-14 00:03:00

这个 "shows" 是什么，在第一行中，用户 f55570ac- 在该时间戳关注用户 5ccdffd。

在第二行中，用户 5bfb4313- 在该时间戳关注了 ebc48322-，在第三行中，用户 ebc48322- 在该时间戳关注了用户 5bfb4313-，因此具有 相互关系.

如何计算整个数据框中 相互关系 的数量？即，存在于 userA 列和 userB 列中的 唯一用户 ID 对 ?

任何想法将不胜感激:)

Answer 1

如果您只想检查 colB 中的 colA 值，可以使用此代码段

df['userA column: '].isin(df['userB column: ']).sum()

输出：

查找用户 A 和用户 B 中的出现顺序计数

pd.concat([df['userA']+'->'+df['userB'],df['userB']+'->'+df['userA']]).value_counts()

输出：

5bfb4313-1d38-4dd2-944d-82bcabea9e31->ebc48322-f8b8-4994-968c-93e8d9e9df1d    2
ebc48322-f8b8-4994-968c-93e8d9e9df1d->5bfb4313-1d38-4dd2-944d-82bcabea9e31    2
5ccd7ffd-7776-4a81-81dd-5331972454c2->f55570ac-c757-4e1f-b0b2-34997614f929    1
f55570ac-c757-4e1f-b0b2-34997614f929->5ccd7ffd-7776-4a81-81dd-5331972454c2    1

计算数据框中两列中作为相反对存在的唯一值的数量？

counting the number of unique values that exist as opposite pairs in two columns within a dataframe?

python

userid

dataframe

pandas