根据列名列表过滤 Pandas 数据框
Filtering Pandas Dataframe Based on List of Column Names
我有一个 pandas 数据框,它可能有 1000 列。但是我不需要那么多列>只有当它们 match/starts/contains 特定字符串时我才需要列。
所以假设我有一个数据框列
df.columns =
HYTY, ABNH, CDKL, GHY@UIKI, BYUJI@#hy BYUJI@tt BBNNII#5 FGATAY@J ....
我想要 select 列名称仅为 HYTY、CDKL、BYUJI* 和 BBNNI*
所以我想做的是创建一个正则表达式列表,例如:
import re
relst = ['HYTY', 'CDKL*', 'BYUJI*', 'BBNI*']
my_w_lst = [re.escape(s) for s in relst]
mask_pattrn = '|'.join(my_w_lst)
然后我创建逻辑向量来给我一个 TRUE/FALSE 的列表来说明字符串是否存在。但是,不了解如何从中获取只有那些真正的 selected 列的数据框。
任何帮助将不胜感激。
我们可以startswith
relst = ['CDKL', 'BYUJI', 'BBNI']
subdf = df.loc[:,df.columns.str.startswith(tuple(relst))|df.columns.isin(['HYTY'])]
使用re.findall()
。它将为您提供要传递给 df[mylist]
的列列表
使用你已有的东西,你可以将你的掩码传递给过滤器,如:
df.filter(regex=mask_pattrn)
我有一个 pandas 数据框,它可能有 1000 列。但是我不需要那么多列>只有当它们 match/starts/contains 特定字符串时我才需要列。
所以假设我有一个数据框列 df.columns =
HYTY, ABNH, CDKL, GHY@UIKI, BYUJI@#hy BYUJI@tt BBNNII#5 FGATAY@J ....
我想要 select 列名称仅为 HYTY、CDKL、BYUJI* 和 BBNNI*
所以我想做的是创建一个正则表达式列表,例如:
import re
relst = ['HYTY', 'CDKL*', 'BYUJI*', 'BBNI*']
my_w_lst = [re.escape(s) for s in relst]
mask_pattrn = '|'.join(my_w_lst)
然后我创建逻辑向量来给我一个 TRUE/FALSE 的列表来说明字符串是否存在。但是,不了解如何从中获取只有那些真正的 selected 列的数据框。
任何帮助将不胜感激。
我们可以startswith
relst = ['CDKL', 'BYUJI', 'BBNI']
subdf = df.loc[:,df.columns.str.startswith(tuple(relst))|df.columns.isin(['HYTY'])]
使用re.findall()
。它将为您提供要传递给 df[mylist]
使用你已有的东西,你可以将你的掩码传递给过滤器,如:
df.filter(regex=mask_pattrn)