在 pandas 数据框中查找序列的 GC 内容
finding GC content of sequences in pandas dataframe
我有一个数据框 df
oligo_name oligo_sequence
AAAAA attttggggctggtaa
BBBBB attttcccgaatgtca
等等。为了计算每个序列的 GC 含量,我做了以下
from Bio.SeqUtils import GC
df['GC content'] = GC(df['oligo_sequence'])
但我收到以下错误:
KeyError: 'Level G must be same as name (None)'
您能否建议一个修复或更好的方法来计算 pandas 数据框中序列的 GC 内容。谢谢
以下对我有用:
In [23]:
df['GC content'] = df['oligo_sequence'].apply(GC)
df
Out[23]:
oligo_name oligo_sequence GC content
0 AAAAA attttggggctggtaa 43.75
1 BBBBB attttcccgaatgtca 37.50
您不能将系列作为参数传递给函数,除非它了解什么是 pandas 系列或数组类型,因此您可以改为调用 apply
并将函数作为参数,它将为系列中的每个值调用该函数,如上所示。
我有一个数据框 df
oligo_name oligo_sequence
AAAAA attttggggctggtaa
BBBBB attttcccgaatgtca
等等。为了计算每个序列的 GC 含量,我做了以下
from Bio.SeqUtils import GC
df['GC content'] = GC(df['oligo_sequence'])
但我收到以下错误:
KeyError: 'Level G must be same as name (None)'
您能否建议一个修复或更好的方法来计算 pandas 数据框中序列的 GC 内容。谢谢
以下对我有用:
In [23]:
df['GC content'] = df['oligo_sequence'].apply(GC)
df
Out[23]:
oligo_name oligo_sequence GC content
0 AAAAA attttggggctggtaa 43.75
1 BBBBB attttcccgaatgtca 37.50
您不能将系列作为参数传递给函数,除非它了解什么是 pandas 系列或数组类型,因此您可以改为调用 apply
并将函数作为参数,它将为系列中的每个值调用该函数,如上所示。