条件 If 语句：如果行中的值包含字符串 ... 将另一列设置为等于字符串

Question

已编辑：

我在 'Activity' 列中填充了字符串，我想使用 if 语句导出 'Activity_2' 列中的值。

因此 Activity_2 显示了所需的结果。本质上，我想指出正在发生什么类型的 activity。

我尝试使用下面的代码执行此操作，但它不会运行（请参阅下面的屏幕截图了解错误）。任何帮助是极大的赞赏！

    for i in df2['Activity']:
        if i contains 'email':
            df2['Activity_2'] = 'email'
        elif i contains 'conference'
            df2['Activity_2'] = 'conference'
        elif i contains 'call'
            df2['Activity_2'] = 'call'
        else:
            df2['Activity_2'] = 'task'


Error: if i contains 'email':
                ^
SyntaxError: invalid syntax

Answer 1

我假设您使用的是 pandas，那么您可以使用 numpy.where，它是 if/else 的矢量化版本，其中str.contains:

构造的条件

df['Activity_2'] = pd.np.where(df.Activity.str.contains("email"), "email",
                   pd.np.where(df.Activity.str.contains("conference"), "conference",
                   pd.np.where(df.Activity.str.contains("call"), "call", "task")))

df

#   Activity            Activity_2
#0  email personA       email
#1  attend conference   conference
#2  send email          email
#3  call Sam            call
#4  random text         task
#5  random text         task
#6  lwantto call        call

Answer 2

您的字符串检查语法无效。

尝试使用

 for i in df2['Activity']:
        if 'email' in i :
            df2['Activity_2'] = 'email'

Answer 3

这也有效：

df.loc[df['Activity'].str.contains('email'), 'Activity_2'] = 'email'
df.loc[df['Activity'].str.contains('conference'), 'Activity_2'] = 'conference'
df.loc[df['Activity'].str.contains('call'), 'Activity_2'] = 'call'

Answer 4

如果您的 df 包含 NaN 值，则当前解决方案会出现错误。在那种情况下，我建议使用以下对我有用的代码

temp=df.Activity.fillna("0")
df['Activity_2'] = pd.np.where(temp.str.contains("0"),"None",
                   pd.np.where(temp.str.contains("email"), "email",
                   pd.np.where(temp.str.contains("conference"), "conference",
                   pd.np.where(temp.str.contains("call"), "call", "task"))))

Answer 5

另一个解决方案可以在@unutbu 制作的 post 中找到。这也适用于创建条件列。我将示例从 post df['Set'] == Z 更改为将您的问题匹配到 df['Activity'].str.contains('yourtext')。请参阅下面的示例：

import pandas as pd
import numpy as np

df = pd.DataFrame({'Activity': ['email person A', 'attend conference', 'call foo']})

conditions = [
    df['Activity'].str.contains('email'),
    df['Activity'].str.contains('conference'),
    df['Activity'].str.contains('call')]

values = ['email', 'conference', 'call']

df['Activity_2'] = np.select(conditions, values, default='task')

print(df)

您可以在此处找到原始 post：Pandas conditional creation of a series/dataframe column

Answer 6

您的代码有错误 - “elif”行上没有冒号。
您没有提到您使用的是 Pandas，但这是我的假设。
我的回答处理默认值，使用适当的 Python 约定，是最有效、最新且易于适应其他活动的答案。


DEFAULT_ACTIVITY = 'task'


def assign_activity(todo_item):
    """Assign activity to raw text TODOs
    """
    activities = ['email', 'conference', 'call']

    for activity in activities:
        if activity in todo_item:
            return activity
        else:
            # Default value
            return DEFAULT_ACTIVITY

df = pd.DataFrame({'Activity': ['email person A', 'attend conference', 'call Charly'],
                   'Colleague': ['Knor', 'Koen', 'Hedge']})

# You should really come up with a better name than 'Activity_2', like 'Labels' or something.
df["Activity_2] = df["Activity"].apply(assign_activity)

条件 If 语句：如果行中的值包含字符串 ... 将另一列设置为等于字符串

Conditional If Statement: If value in row contains string ... set another column equal to string

python

string

conditional

if-statement

contains