为什么 Python itertools 没有归类为生成器 (GeneratorType)?
Why are Python itertools not classified as generators (GeneratorType)?
我刚刚发现 Python 类型系统不认为生成器的各种 itertools 函数 return class 类型。
首先,设置:
import collections
import glob
import itertools
import types
ig = glob.iglob('*')
iz = itertools.izip([1,2], [3,4])
然后:
>>> isinstance(ig, types.GeneratorType)
True
>>> isinstance(iz, types.GeneratorType)
False
glob.iglob()
结果或任何其他典型生成器的类型为 types.GeneratorType
。但是 itertools 结果不是。如果我想编写一个必须急切计算其输入序列的函数,这会导致很大的混乱——我需要知道它是否是一个生成器。
我找到了这个替代方案:
>>> isinstance(ig, collections.Iterator)
True
>>> isinstance(iz, collections.Iterator)
True
但这并不理想,因为 iter(x)
是一个 Iterator
,无论 x
是具体的(急切求值的)序列还是生成器(惰性求值的)。
最终目标是这样的:
def foo(self, sequence):
"""Store the sequence, making sure it is fully
evaluated before this function returns."""
if isinstance(sequence, types.GeneratorType):
self.sequence = list(sequence)
else:
self.sequence = sequence
为什么我想这样做的一个例子是,如果序列的评估可能引发异常,我希望从 foo()
而不是后续使用 self.sequence
.
我不喜欢 types.GeneratorType
方法,因为它会产生一些误报 -- 我不想不必要地构建输入列表的副本,因为它可能很大。
我愿意忽略 "unusual" 迭代器,这意味着如果有人实现了一个不符合生成器条件的自定义迭代器,但我不愿意让 itertools 有错误的行为,因为他们很受欢迎。
为什么 Python itertools 没有归类为生成器?
想想 generators as being one of many possible ways to implement an iterator. The itertools 都是用 C 语言编写的自定义迭代器。大部分可以使用生成器以较慢的代码实现,但它们是为速度而设计的。
types.GeneratorType is specified to be "The type of generator-iterator objects, produced by calling a generator function." Since the iterator returned by glob.iglob() is produced by calling a generator function, it will match the generator type. However, the iterator returned by itertools.izip()是C代码生成的,所以不会匹配生成器类型。
换句话说,types.GeneratorType 对识别所有惰性求值迭代器没有用,它只对识别实际 generator-iterators.
如何识别完全评估的集合?
听起来目标是区分 "eagerly evaluated" 集合(如 list、tuple、dict 和 set) 与 "lazily evaluated" 迭代器。使用 collections.Iterator 可能是可行的方法:
>>> isinstance([], collections.Iterator)
False
>>> isinstance((), collections.Iterator)
False
>>> isinstance({}, collections.Iterator)
False
>>> isinstance(set(), collections.Iterator)
False
>>> isinstance(iter([]), collections.Iterator)
True
>>> isinstance(iter(()), collections.Iterator)
True
>>> isinstance(iter({}), collections.Iterator)
True
>>> isinstance(iter(set()), collections.Iterator)
True
>>> isinstance(glob.iglob('.'), collections.Iterator)
True
>>> isinstance(itertools.izip('abc', 'def'), collections.Iterator)
True
>>> isinstance((x**2 for x in range(5)), collections.Iterator)
True
如果 iter() 已经被调用了怎么办?
如果您已经在任何 "eager" 集合上调用了 iter(),那么在没有诉诸恶作剧,例如 type(x) in {type(iter(s)) for s in ([], (), {}, set())}
.
最终目标
既定目标是 "store the sequence, making sure it is fully evaluated before this function returns"。这样做的通常方法只是 list(sequence)
而不进行周围检查以查看它是否已经是列表、元组、双端队列或其他一些完全评估的序列。这可能看起来很浪费,但是 list() 调用非常快(它只是以 C 速度复制对象指针)。
我刚刚发现 Python 类型系统不认为生成器的各种 itertools 函数 return class 类型。
首先,设置:
import collections
import glob
import itertools
import types
ig = glob.iglob('*')
iz = itertools.izip([1,2], [3,4])
然后:
>>> isinstance(ig, types.GeneratorType)
True
>>> isinstance(iz, types.GeneratorType)
False
glob.iglob()
结果或任何其他典型生成器的类型为 types.GeneratorType
。但是 itertools 结果不是。如果我想编写一个必须急切计算其输入序列的函数,这会导致很大的混乱——我需要知道它是否是一个生成器。
我找到了这个替代方案:
>>> isinstance(ig, collections.Iterator)
True
>>> isinstance(iz, collections.Iterator)
True
但这并不理想,因为 iter(x)
是一个 Iterator
,无论 x
是具体的(急切求值的)序列还是生成器(惰性求值的)。
最终目标是这样的:
def foo(self, sequence):
"""Store the sequence, making sure it is fully
evaluated before this function returns."""
if isinstance(sequence, types.GeneratorType):
self.sequence = list(sequence)
else:
self.sequence = sequence
为什么我想这样做的一个例子是,如果序列的评估可能引发异常,我希望从 foo()
而不是后续使用 self.sequence
.
我不喜欢 types.GeneratorType
方法,因为它会产生一些误报 -- 我不想不必要地构建输入列表的副本,因为它可能很大。
我愿意忽略 "unusual" 迭代器,这意味着如果有人实现了一个不符合生成器条件的自定义迭代器,但我不愿意让 itertools 有错误的行为,因为他们很受欢迎。
为什么 Python itertools 没有归类为生成器?
想想 generators as being one of many possible ways to implement an iterator. The itertools 都是用 C 语言编写的自定义迭代器。大部分可以使用生成器以较慢的代码实现,但它们是为速度而设计的。
types.GeneratorType is specified to be "The type of generator-iterator objects, produced by calling a generator function." Since the iterator returned by glob.iglob() is produced by calling a generator function, it will match the generator type. However, the iterator returned by itertools.izip()是C代码生成的,所以不会匹配生成器类型。
换句话说,types.GeneratorType 对识别所有惰性求值迭代器没有用,它只对识别实际 generator-iterators.
如何识别完全评估的集合?
听起来目标是区分 "eagerly evaluated" 集合(如 list、tuple、dict 和 set) 与 "lazily evaluated" 迭代器。使用 collections.Iterator 可能是可行的方法:
>>> isinstance([], collections.Iterator)
False
>>> isinstance((), collections.Iterator)
False
>>> isinstance({}, collections.Iterator)
False
>>> isinstance(set(), collections.Iterator)
False
>>> isinstance(iter([]), collections.Iterator)
True
>>> isinstance(iter(()), collections.Iterator)
True
>>> isinstance(iter({}), collections.Iterator)
True
>>> isinstance(iter(set()), collections.Iterator)
True
>>> isinstance(glob.iglob('.'), collections.Iterator)
True
>>> isinstance(itertools.izip('abc', 'def'), collections.Iterator)
True
>>> isinstance((x**2 for x in range(5)), collections.Iterator)
True
如果 iter() 已经被调用了怎么办?
如果您已经在任何 "eager" 集合上调用了 iter(),那么在没有诉诸恶作剧,例如 type(x) in {type(iter(s)) for s in ([], (), {}, set())}
.
最终目标
既定目标是 "store the sequence, making sure it is fully evaluated before this function returns"。这样做的通常方法只是 list(sequence)
而不进行周围检查以查看它是否已经是列表、元组、双端队列或其他一些完全评估的序列。这可能看起来很浪费,但是 list() 调用非常快(它只是以 C 速度复制对象指针)。