python 中生成器对象的大小

size of generator object in python

对于以下代码:

import sys
x=(i for i in range(1,11))
print x


print 'Before starting iterating generator size is' ,sys.getsizeof(x)

print 'For first time'
for i in x:
    print i

print 'For second time , does not print anything'    
for i in x:
    print i # does not print anything

print 'After iterating generator size is' ,sys.getsizeof(x)

输出是:

<generator object <genexpr> at 0x014C1A80>
Before starting iterating generator size is 40
For first time
1
2
3
4
5
6
7
8
9
10
For second time
After iterating generator size is 40

最初生成器对象的大小是40,当我迭代完成时它仍然是40。但是第二个循环没有引用任何元素。

为什么生成器对象在创建时和完成迭代时占用相同的内存?

生成器 x 基本上是一个函数,无论何时调用它都会提供 i 的下一个值。它不会预先计算所有值。它会一直等到它被调用,然后计算并提供下一个值。

所以每次调用都会产生下一个值。

为什么 x 的大小没有变化?嗯,这是因为 x 不是数字列表。进程的开始和结束,还是一样的功能。

这是使用生成器的优势。您不必在开始时将所有内容加载到内存中(这样可以节省内存),并且(如果正确完成)您不必计算任何东西直到实际需要它(因此如果某些值可以节省计算时间不需要)。

要查看此内容:

x = (i for i in xrange(10**10))
for i in x:
    print i
    if i>10:
        break
print 'intermission'
for i in x:
    print i
    if i>20:
        break

(注意 xrange,而不是 range --- 使用 range 会导致预先计算发生)。想象一下实际生成从 0 到 10**10 的整数需要多长时间以及需要多少内存。比较此代码的运行速度。

生成器在内存中的 space 只是簿记信息。其中保留了对框架对象的引用(运行ning Python 代码的管理,例如本地人),无论它现在是否是 运行ning,以及对 运行ning 的引用代码对象被保留。仅此而已:

>>> x=(i for i in range(1,11))
>>> dir(x)
['__class__', '__delattr__', '__doc__', '__format__', '__getattribute__', '__hash__', '__init__', '__iter__', '__name__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'close', 'gi_code', 'gi_frame', 'gi_running', 'next', 'send', 'throw']
>>> x.gi_frame
<frame object at 0x1053b4ad0>
>>> x.gi_running
0
>>> x.gi_code
<code object <genexpr> at 0x1051af5b0, file "<stdin>", line 1>

那只是 3 个引用,加上通常的 Python 对象类型信息(想想引用计数)和一个弱引用列表;所以这大约是 4 个指针,一个整数和一个结构,在你的系统上占用 40 个字节(在我的系统上,64 位 OS X,它是 80 个字节)。 sys.getsizeof() 报告 的大小 该结构在 C 中实现,并且不递归指针。

因此,当您通过生成器 运行 时,内存量不会改变。引用的帧可能会改变使用的内存量(如果生成器表达式向一端或另一端引用大对象)但是您不会在生成器对象上看到 sys.getsizeof() 的结果;改为查看框架局部变量:

>>> next(x)
1
>>> x.gi_frame.f_locals
{'i': 1, '.0': <listiterator object at 0x105339dd0>}

.0 对象是生成器在 for 循环中使用的 range() 迭代器,ifor 循环目标。 listiterator 是另一个可迭代对象,它有一个对生成的列表 range() 的私有引用以及一个位置计数器,因此它可以在您每次要求它时生成下一个元素。

您不能查询生成器的元素大小;他们无论如何都会根据需要生产元素,你无法先验 'know' 他们会生产多少,也不知道他们在 运行 之后生产了多少。 sys.getsizeof()当然不会告诉你;它是一个测量内存占用的工具,如果你想知道占用空间,你必须递归测量所有引用的对象。

可以看到生成器已经从框架中完成了它的运行;完成后已清除

>>> x.gi_frame
<frame object at 0x1053b4ad0>
>>> list(x)
[2, 3, 4, 5, 6, 7, 8, 9, 10]
>>> x.gi_frame is None
True

所以最后,用于生成器的内存驻留在框架中的结构中(局部变量,也可能是全局变量,这些名称中的每个对象space可能再次引用其他对象),并且当生成器完成,帧被清除,生成器 .gi_frame 指针被更改为指向 None 单例,如果引用计数下降到 0,则帧被清除。

所有这些仅适用于 generators,不适用于一般的 iterables;生成器是 Python 代码,因此可以如此深入地反省。