将 pandas DataFrame 行与 key/value 对的字典匹配

Question

我希望执行以下操作：

df.loc[(df["first_name"] == "joko") & (df["last_name"] == "widodo"), "are_you_joko"]

但是，没有在 (df["first_name"] == "joko") & (df["last_name"] 行中明确提供列名称和值== "widodo")。相反，我想提供 key/value 对的字典，例如 {"first_name": "joko", "last_name": "widodo" }。另外，我想以最快的方式完成这项工作。我目前正在使用以下内容。

tf_df = pd.DataFrame([df[k] == v for k, v in record_dict.iteritems()]).all()
df.loc[:, "are_you_joko"] = tf_df

其中 record_dict 是 {"first_name": "joko", "last_name": "widodo"}。如果有人知道任何更快的事情，我很感兴趣。谢谢！

Answer 1

如果您的 df 很大，创建一个新的 DataFrame 似乎会花费时间和内存。我试过这样的东西，当 len(df) = 100000 时，它在我的机器上比你的快 500 倍以上。如果你的df很小，我想没有区别。

In [1]:

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randint(3, size=(100000,5)), columns=list('ABCDE'))

record_dict = dict(A=1, B=2, C=1, D=2, E=1)
In [2]:

%%timeit 
tf_df = pd.DataFrame([df[k] == v for k, v in record_dict.iteritems()]).all()
1 loops, best of 3: 2.34 s per loop
In [3]:

%%timeit
msk = None
for k, v in record_dict.iteritems():
    if msk is None:
        msk = df[k] == v
    else:
        msk = msk & (df[k] == v)       
100 loops, best of 3: 4.14 ms per loop

将 pandas DataFrame 行与 key/value 对的字典匹配

match pandas DataFrame rows with dict of key/value pairs

python

profiling

pandas