什么在这个 python 脚本中使用了所有 RAM?
What is using all the RAM in this python script?
我有非常简单的 python 脚本如下。在我的使用中,它只计算 text file of DNA.
中长度为 2 的不同字符串的数量
#!/usr/bin/python
#Count the number of distinct kmers in a file
import sys
def kmer_count(dna, k):
total_kmers = len(dna) - k + 1
# assemble dict of kmer counts
kmer2count = {}
for x in range(len(dna)+1-k):
kmer = dna[x:x+k]
kmer2count[kmer] = kmer2count.get(kmer, 0) + 1
return(len(kmer2count))
workfile = "test.fa"
f = open(workfile, 'r')
dna = f.readline()
print "Number of bytes to represent input", sys.getsizeof(dna)
print "Number of items in dict", kmer_count(dna, 2)
这会打印
Number of bytes to represent input 10000037
Number of items in dict 71
然而当我使用
查看内存使用情况时
/usr/bin/time --format="Size:%MK Cpu:%P Elapsed:%e" ./kmer.py
我明白了
Size:332776K Cpu:100% Elapsed:2.57
什么占用了所有 RAM?
您在 for 循环中使用了 range
,它构建了一个包含所有数字的列表。这势必很大。
在 Python 2 中,循环遍历 xrange
:xrange 懒惰地根据需要为 for 循环创建数字。
我有非常简单的 python 脚本如下。在我的使用中,它只计算 text file of DNA.
中长度为 2 的不同字符串的数量#!/usr/bin/python
#Count the number of distinct kmers in a file
import sys
def kmer_count(dna, k):
total_kmers = len(dna) - k + 1
# assemble dict of kmer counts
kmer2count = {}
for x in range(len(dna)+1-k):
kmer = dna[x:x+k]
kmer2count[kmer] = kmer2count.get(kmer, 0) + 1
return(len(kmer2count))
workfile = "test.fa"
f = open(workfile, 'r')
dna = f.readline()
print "Number of bytes to represent input", sys.getsizeof(dna)
print "Number of items in dict", kmer_count(dna, 2)
这会打印
Number of bytes to represent input 10000037
Number of items in dict 71
然而当我使用
查看内存使用情况时/usr/bin/time --format="Size:%MK Cpu:%P Elapsed:%e" ./kmer.py
我明白了
Size:332776K Cpu:100% Elapsed:2.57
什么占用了所有 RAM?
您在 for 循环中使用了 range
,它构建了一个包含所有数字的列表。这势必很大。
在 Python 2 中,循环遍历 xrange
:xrange 懒惰地根据需要为 for 循环创建数字。