在 pandas 数据框中查找序列的 GC 内容

finding GC content of sequences in pandas dataframe

我有一个数据框 df

oligo_name  oligo_sequence

AAAAA       attttggggctggtaa

BBBBB       attttcccgaatgtca

等等。为了计算每个序列的 GC 含量,我做了以下

from Bio.SeqUtils import GC

df['GC content'] = GC(df['oligo_sequence'])

但我收到以下错误:

KeyError: 'Level G must be same as name (None)'

您能否建议一个修复或更好的方法来计算 pandas 数据框中序列的 ​​GC 内容。谢谢

以下对我有用:

In [23]:

df['GC content'] = df['oligo_sequence'].apply(GC)
df
Out[23]:
  oligo_name    oligo_sequence  GC content
0      AAAAA  attttggggctggtaa       43.75
1      BBBBB  attttcccgaatgtca       37.50

您不能将系列作为参数传递给函数,除非它了解什么是 pandas 系列或数组类型,因此您可以改为调用 apply 并将函数作为参数,它将为系列中的每个值调用该函数,如上所示。