如何根据数据框中各个列的不同布尔标准创建新列
How to create a new column based upon different boolean criteria for individual columns in dataframe
我想创建一个二进制列,如果数据框中正好有一个列满足逻辑条件 A,而数据框中的另一列满足逻辑条件 A 或逻辑条件 B,则标记为是。因此,新列将只有一个1 如果两个单独的列满足上述条件。
每一列都是每年的单独产品计数。
条件A:如果一个产品(即"c1")当年卖出了8件产品,前一年卖出1到6件,前一年(2年前)卖出1到6件,满足条件A。
条件 B:如果任何其他产品(即不是 "c1" 说 "c3")满足上述条件 A 或当年售出 8 件,前一年售出 8 件,两年前售出 8 件,则满足条件 B。
因此,如果特定年份的任意 2 列满足上述条件,则 Success 只能为 1。一列必须满足条件 A,另一列必须满足条件 B。
import numpy as np
import pandas as pd
df = pd.DataFrame({'C1':[7,3,2,8,3,4,6,8,3,2],'C2':[2,5,4,8,8,8,3,2,8,4],'C3': [7,5,4,6,7,8,6,8,1,7],
'C4':[3,4,4,6,4,2,6,3,2,6],'C5':[6,4,0,8,4,2,6,6,7,8],'Year':[2010,2011,2012,2013,2014,2015,2016,2017,2018,2019]})
df.set_index('Year', inplace=True)
df1 =df[::-1]
df1
_1_CorrA =((df1.eq(8)) & (df1.shift(-1).isin([1,6])) & (df1.shift(-2).isin([1,6]))).sum(axis=1)==1
_1_CorrB =(((df1.eq(8)) & (df1.shift(-1).eq(8)) & (df1.shift(-2).eq(8))) |
((df1.eq(8)) & (df1.shift(-1).isin([1,6])) & (df1.shift(-2).isin([1,6])))).sum(axis=1)==1
Strategy = (((_1_CorrA) & (_1_CorrB)))
df1['Success']=np.where(Strategy,1,0)
我希望在索引行 2015 和 2013 中看到 1,因为只有这两行正好有两个不同的列满足上述条件。
成功意味着恰好有两列满足条件 A (a.sum(1).eq(2)
) 或一列满足条件 A 而另一列满足条件 B,即当前年份和前两年的每一年都等于目标值 8。
为了确保同一列不同时满足条件A和条件B,我从条件A中获取成功的列并确保它不等于从条件B中获得的成功列(a.idxmax(1).ne(b.idxmax(1))
) .仅当条件 A 和条件 B 都恰好有一个成功时才进行此比较,因此我可以使用 idxmax
来获取通过条件的列。
target = 8
upper_limit = 6
lower_limit = 1
df1_shift1 = df1.shift(-1)
df1_shift2 = df1.shift(-2)
a = (
df1.eq(target)
& df1_shift1.ge(lower_limit)
& df1_shift1.le(upper_limit)
& df1_shift2.ge(lower_limit)
& df1_shift2.le(upper_limit)
)
b = (
df1.eq(target)
& df1_shift1.eq(target)
& df1_shift2.eq(target)
)
success = (
a.sum(1).eq(2)
| (a.sum(1).eq(1)
& b.sum(1).eq(1)
& a.idxmax(1).ne(b.idxmax(1)))
)
>>> df1.assign(Success=success)
C1 C2 C3 C4 C5 Success
Year
2019 2 4 7 6 8 False
2018 3 8 1 2 7 False
2017 8 2 8 3 6 False
2016 6 3 6 6 6 False
2015 4 8 8 2 2 False
2014 3 8 7 4 4 False
2013 8 8 6 6 8 True
2012 2 4 4 4 0 False
2011 3 5 5 4 4 False
2010 7 2 7 3 6 False
我认为你应该使用 DataFrame.apply()
来帮助你。
例如:
df = pd.DataFrame({'C1':[7,3,2,8,3,4,6,8,3,2],
'C2':[2,5,4,8,8,8,3,2,8,4],
'C3': [7,5,4,6,7,8,6,8,1,7],
'C4':[3,4,4,6,4,2,6,3,2,6],
'C5':[6,4,0,8,4,2,6,6,7,8],
'Year':[2010,2011,2012,2013,2014,2015,2016,2017,2018,2019]})
def my_rule(row):
C1 = row['C1']
C2 = row['C2']
C3 = row['C3']
C4 = row['C4']
C5 = row['C5']
year = row['year']
# write your rule of C1,...,C5 here
if ...:
return 1
else:
return 0
df['Success'] = df.apply(lambda row: my_rule(row), axis=1)
希望这符合您的问题。
我想创建一个二进制列,如果数据框中正好有一个列满足逻辑条件 A,而数据框中的另一列满足逻辑条件 A 或逻辑条件 B,则标记为是。因此,新列将只有一个1 如果两个单独的列满足上述条件。
每一列都是每年的单独产品计数。 条件A:如果一个产品(即"c1")当年卖出了8件产品,前一年卖出1到6件,前一年(2年前)卖出1到6件,满足条件A。 条件 B:如果任何其他产品(即不是 "c1" 说 "c3")满足上述条件 A 或当年售出 8 件,前一年售出 8 件,两年前售出 8 件,则满足条件 B。 因此,如果特定年份的任意 2 列满足上述条件,则 Success 只能为 1。一列必须满足条件 A,另一列必须满足条件 B。
import numpy as np
import pandas as pd
df = pd.DataFrame({'C1':[7,3,2,8,3,4,6,8,3,2],'C2':[2,5,4,8,8,8,3,2,8,4],'C3': [7,5,4,6,7,8,6,8,1,7],
'C4':[3,4,4,6,4,2,6,3,2,6],'C5':[6,4,0,8,4,2,6,6,7,8],'Year':[2010,2011,2012,2013,2014,2015,2016,2017,2018,2019]})
df.set_index('Year', inplace=True)
df1 =df[::-1]
df1
_1_CorrA =((df1.eq(8)) & (df1.shift(-1).isin([1,6])) & (df1.shift(-2).isin([1,6]))).sum(axis=1)==1
_1_CorrB =(((df1.eq(8)) & (df1.shift(-1).eq(8)) & (df1.shift(-2).eq(8))) |
((df1.eq(8)) & (df1.shift(-1).isin([1,6])) & (df1.shift(-2).isin([1,6])))).sum(axis=1)==1
Strategy = (((_1_CorrA) & (_1_CorrB)))
df1['Success']=np.where(Strategy,1,0)
成功意味着恰好有两列满足条件 A (a.sum(1).eq(2)
) 或一列满足条件 A 而另一列满足条件 B,即当前年份和前两年的每一年都等于目标值 8。
为了确保同一列不同时满足条件A和条件B,我从条件A中获取成功的列并确保它不等于从条件B中获得的成功列(a.idxmax(1).ne(b.idxmax(1))
) .仅当条件 A 和条件 B 都恰好有一个成功时才进行此比较,因此我可以使用 idxmax
来获取通过条件的列。
target = 8
upper_limit = 6
lower_limit = 1
df1_shift1 = df1.shift(-1)
df1_shift2 = df1.shift(-2)
a = (
df1.eq(target)
& df1_shift1.ge(lower_limit)
& df1_shift1.le(upper_limit)
& df1_shift2.ge(lower_limit)
& df1_shift2.le(upper_limit)
)
b = (
df1.eq(target)
& df1_shift1.eq(target)
& df1_shift2.eq(target)
)
success = (
a.sum(1).eq(2)
| (a.sum(1).eq(1)
& b.sum(1).eq(1)
& a.idxmax(1).ne(b.idxmax(1)))
)
>>> df1.assign(Success=success)
C1 C2 C3 C4 C5 Success
Year
2019 2 4 7 6 8 False
2018 3 8 1 2 7 False
2017 8 2 8 3 6 False
2016 6 3 6 6 6 False
2015 4 8 8 2 2 False
2014 3 8 7 4 4 False
2013 8 8 6 6 8 True
2012 2 4 4 4 0 False
2011 3 5 5 4 4 False
2010 7 2 7 3 6 False
我认为你应该使用 DataFrame.apply()
来帮助你。
例如:
df = pd.DataFrame({'C1':[7,3,2,8,3,4,6,8,3,2],
'C2':[2,5,4,8,8,8,3,2,8,4],
'C3': [7,5,4,6,7,8,6,8,1,7],
'C4':[3,4,4,6,4,2,6,3,2,6],
'C5':[6,4,0,8,4,2,6,6,7,8],
'Year':[2010,2011,2012,2013,2014,2015,2016,2017,2018,2019]})
def my_rule(row):
C1 = row['C1']
C2 = row['C2']
C3 = row['C3']
C4 = row['C4']
C5 = row['C5']
year = row['year']
# write your rule of C1,...,C5 here
if ...:
return 1
else:
return 0
df['Success'] = df.apply(lambda row: my_rule(row), axis=1)
希望这符合您的问题。