整个 DNA 文件 index/location 切片成固定长度的子串
whole DNA file Slice to a fixed length substring by index/location
我是 python 的新手,我正在编写代码来切片 DNA 序列。
这个想法是:首先计算文本文件中的序列长度,其次,将序列切成长度为 5 的子字符串。最后将每个子字符串写入输出文本文件中的一行。
我不知道如何从每个具有相同长度的字符中拆分序列,假设文本文件包含 [ACTGTATGCATACACGTA...] 结果应该类似于 ACTGT、CTGTA、TGTAT、.. .
我需要有关增量循环功能的帮助,它可以通过 index/location
帮助 split/slice
使用textwrap
将输入字符串分割成块,然后将它们写入newfile.txt
:
import textwrap
s = 'ACTGTATGCATACACACTGT' # your input DNA sequence
splitted = textwrap.wrap(s, 5) # split it to 5-char substrings
with open('newfile.txt', 'w') as f: # write to a text file
for line in splitted:
f.write(line + '\n') # one substring = one line
输出文件:
ACTGT
ATGCA
TACAC
ACTGT
试试这个:
st = "ACTGTATGCATACACGTA"
for i in range(0,len(st[:-4])):
print(st[i:i+5])
O/P 会像:
ACTGT CTGTA TGTAT GTATG TATGC ATGCA TGCAT GCATA CATAC ATACA TACAC ACACG CACGT ACGTA
我是 python 的新手,我正在编写代码来切片 DNA 序列。 这个想法是:首先计算文本文件中的序列长度,其次,将序列切成长度为 5 的子字符串。最后将每个子字符串写入输出文本文件中的一行。
我不知道如何从每个具有相同长度的字符中拆分序列,假设文本文件包含 [ACTGTATGCATACACGTA...] 结果应该类似于 ACTGT、CTGTA、TGTAT、.. .
我需要有关增量循环功能的帮助,它可以通过 index/location
帮助 split/slice使用textwrap
将输入字符串分割成块,然后将它们写入newfile.txt
:
import textwrap
s = 'ACTGTATGCATACACACTGT' # your input DNA sequence
splitted = textwrap.wrap(s, 5) # split it to 5-char substrings
with open('newfile.txt', 'w') as f: # write to a text file
for line in splitted:
f.write(line + '\n') # one substring = one line
输出文件:
ACTGT
ATGCA
TACAC
ACTGT
试试这个:
st = "ACTGTATGCATACACGTA"
for i in range(0,len(st[:-4])):
print(st[i:i+5])
O/P 会像:
ACTGT CTGTA TGTAT GTATG TATGC ATGCA TGCAT GCATA CATAC ATACA TACAC ACACG CACGT ACGTA