将 Pandas 数据帧行中的字符串处理为逗号分隔的字符

Question

我有一个数据框，每一行都有数据。

MKEYGEDLK

如何处理每行中的序列字符串，以便格式如此？

[M, K, E, Y, G, E, D, L, K]

我试过了

get_seq_str = ','.join(test_df.loc[0]['seq_1'])
arr.append(get_seq_str)

但是，当我将它附加到数据框时，每个字符串的开头和结尾都有一个单引号，这是我不想要的。

['M, K, E, Y, G, E, D, L, K']

如何去除单引号？

Answer 1

IIUC，你可以尝试apply list 字符串值

df['col_list'] = df['col'].apply(list)

print(df)

         col                     col_list
0  MKEYGEDLK  [M, K, E, Y, G, E, D, L, K]

Answer 2

你可以试试这个。

get_seq_str = [*test_df.loc[0]['seq_1']]

Answer 3

您可以使用 str.findall:

df['new'] = df['seq_1'].str.findall(r'[a-zA-Z]')

示例：

         seq_1                          new
0    MKEYGEDLK  [M, K, E, Y, G, E, D, L, K]
1  ?MKEY GEDLK  [M, K, E, Y, G, E, D, L, K]

Process string in Pandas Dataframe rows to comma-delimitered chars