在另一列的条件下用 Pandas 替换字符串列结尾的特定子字符串

Replace string column endwiths specific substrings under condition of another column with Pandas

给定如下数据集:

   id  company name  value
0   1    Finl Corp.      7
1   2  Fund Tr Corp      6
2   3   Inc Invt Fd      5
3   4  Govt Fd Inc.      3
4   5   Trinity Inc      5

或者:

[{'id': 1, 'company name': 'Finl Corp.', 'value': 7},
 {'id': 2, 'company name': 'Fund Tr Corp', 'value': 6},
 {'id': 3, 'company name': 'Inc Invt Fd', 'value': 5},
 {'id': 4, 'company name': 'Govt Fd Inc.', 'value': 3},
 {'id': 5, 'company name': 'Trinity Inc', 'value': 5}]

如果 company name 列的内容以 ['Corp.', 'Corp', 'Inc.', 'Inc'] 结尾,我需要替换,同时 value>= 5

预期结果将是:

   id  company name  value
0   1          Finl      7
1   2       Fund Tr      6
2   3   Inc Invt Fd      5
3   4  Govt Fd Inc.      3
4   5       Trinity      5

如何在 Pandas 和正则表达式中实现?

错误的试用代码:TypeError: replace() missing 1 required positional argument: 'repl'

mask = (df1['value'] >= 5)
df1.loc[mask, 'company_name_concise']= df1.loc[mask, 'company name'].str.replace(r'\bCorp.|Corp|Inc.|Inc$', regex=True)

您可以通过为空格添加 \s* 并为字符串结尾添加 $ 来更改正则表达式中的值:

mask = (df1['value'] >= 5)


L = ['Corp.', 'Corp', 'Inc.', 'Inc']
pat = '|'.join(f'\s*{x}$' for x in L)

df1.loc[mask, 'company name']= df1.loc[mask,'company name'].str.replace(pat,'',regex=True)

print (df1)
   id  company name  value
0   1          Finl      7
1   2       Fund Tr      6
2   3   Inc Invt Fd      5
3   4  Govt Fd Inc.      3
4   5       Trinity      5

或者对于代码长度,您可以直接修改整个列并按索引分配:

df.loc[df['value'] > 5, 'company name'] = df['company name'].str.replace(r'\bCorp.|Corp|Inc.|Inc$', '')
>>> df

   id  company name  value
0   1         Finl       7
1   2      Fund Tr       6
2   3   Inc Invt Fd      5
3   4  Govt Fd Inc.      3
4   5   Trinity Inc      5
>>> 

np.where的解决方案:

>>> df['company name'] = np.where(df['value'] > 5, df['company name'].str.replace(r'\bCorp.|Corp|Inc.|Inc$', ''), df['company name'])
>>> df
   id  company name  value
0   1         Finl       7
1   2      Fund Tr       6
2   3   Inc Invt Fd      5
3   4  Govt Fd Inc.      3
4   5   Trinity Inc      5
>>> 

str.replace 采用 两个 个参数,模式和替换:

mask = (df1['value'] >= 5)
df1.loc[mask, 'company_name_concise']= df1.loc[mask, 'company name'].str.replace(r'\b(?:Corp\.?|Inc\.?)$', '', regex=True)

请注意,您需要的正则表达式模式是:

\b           word boundary
(?:
    Corp\.?  match Corp or Corp.
    |        OR
    Inc\.?   match Inc or Inc.
)
$            at the end of the company name