如何编写能够return Python 迭代器对象的(Python 模块的C 代码?
How to write C code (of a Python module) able to return a Python iterator object?
在我很快成功地用 C++ ( ) 编写了一个简约的 Python3.6 扩展模块之后,我计划提供一个 Python 模块,它的作用与以下相同Python 函数 iterUniqueCombos()
:
def iterUniqueCombos(lstOfSortableItems, sizeOfCombo):
lstOfSortedItems = sorted(lstOfSortableItems)
sizeOfList = len(lstOfSortedItems)
lstComboCandidate = []
def idxNextUnique(idxItemOfList):
idxNextUniqueCandidate = idxItemOfList + 1
while (
idxNextUniqueCandidate < sizeOfList
and
lstOfSortedItems[idxNextUniqueCandidate] == lstOfSortedItems[idxItemOfList]
): # while
idxNextUniqueCandidate += 1
idxNextUnique = idxNextUniqueCandidate
return idxNextUnique
def combinate(idxItemOfList):
if len(lstComboCandidate) == sizeOfCombo:
yield tuple(lstComboCandidate)
elif sizeOfList - idxItemOfList >= sizeOfCombo - len(lstComboCandidate):
lstComboCandidate.append(lstOfSortedItems[idxItemOfList])
yield from combinate(idxItemOfList + 1)
lstComboCandidate.pop()
yield from combinate(idxNextUnique(idxItemOfList))
yield from combinate(0)
我对 Python 和 C++ 编程有一些基本的了解,但完全不知道如何 "translate" Pythons yield 到 C++ Python 扩展模块的代码。所以我的问题是:
How to write C++ code (of a Python module) able to return a Python iterator object?
欢迎任何帮助我入门的提示。
更新(状态 2017-05-07):
两个评论:yield 没有 C++ 等价物。我将从在 Python 中手动实现迭代器协议开始,以摆脱 yield 和 yield from 心态。 – user2357112 4 月 26 日在 1:16 和 danny
的回答中的提示这个问题的答案与询问 'How do I implement an iterator without using yield' 相同,但在C++ 扩展而不是纯 Python. 通过重写算法代码以消除 yield
并通过编写 C 代码将我的编程工作推向了重新发明轮子的错误方向从头开始的 Python 扩展模块(导致下雨 Segmentation Fault
错误)。
The state-of-the-art of my current knowledge on the subject of the question is that using Cython it is possible to translate the above Python code (which is using yield
) directly into C code of a Python extension module.
这不仅可以按原样使用 Python 代码(无需重写任何内容),而且可以提高 Cython 使用 yield
的运行速度至少是使用 __iter__
和 __next__
重写算法 从迭代器 class 创建的扩展模块的两倍(后者有效,如果Python 脚本中没有添加 Cython 特定的速度优化代码)。
Python 中的迭代器是生成器的一种特殊形式,由包含方法 __iter__
和 next
的 class 实现,其中 __iter__
returns self
和 next
returns 每个值依次递增,在迭代结束时提高 StopIteration
- see PEP.
要提供 C++ 等效项,C++ 代码需要实现相同的 python 函数以符合协议。生成的扩展类型是一个迭代器。
换句话说,这个问题的答案与询问“如何在不使用 yield
的情况下实现迭代器”相同,而是在 C++ 扩展中纯 Python。关于堆栈溢出,有几个现有的答案。
注意 - next
在 Python 上是 __next__
3.
这更像是对你的问题编辑的回应而不是完整的答案 - 我同意 Danny 的回答的要点,你需要在 class 和 __next__
/next
方法(取决于 Python 的版本)。在您的编辑中,您断言它一定是可能的,因为 Cython 可以做到。我认为值得看看 Cython 究竟是如何做到的。
从一个基本示例开始(选择它是因为它有一些不同的 yield
语句和一个循环):
def basic_iter(n):
a = 0
b = 5
yield a
a+=3
yield b
b+=2
for i in range(n):
yield a+b+n
a = b+1
b*=2
yield 50
Cython 做的第一件事是定义一个 __pyx_CoroutineObject
C class 和一个实现 __next__
/next
的 __Pyx_Generator_Next
方法。 __pyx_CoroutineObject
的一些相关属性:
body
- 实现您定义的逻辑的 C 函数指针。
resume_label
- 一个整数,用于记住您在 body
定义的函数中的进度
closure
- 自定义创建的 C class,用于存储 body
. 中使用的所有变量
稍微迂回一下,__Pyx_Generator_Next
调用 body
属性,它是您定义的 Python 代码的翻译。
然后让我们看看分配给 body
的函数是如何工作的 - 在我的例子中称为 __pyx_gb_5iters_2generator
。它做的第一件事是使用 resume_label
跳转到右边的 yield
语句:
switch (__pyx_generator->resume_label) {
case 0: goto __pyx_L3_first_run;
case 1: goto __pyx_L4_resume_from_yield;
case 2: goto __pyx_L5_resume_from_yield;
case 3: goto __pyx_L8_resume_from_yield;
case 4: goto __pyx_L9_resume_from_yield;
default: /* CPython raises the right error here */
__Pyx_RefNannyFinishContext();
return NULL;
}
任何变量赋值都是通过 closure
结构完成的(本地命名为 __pyx_cur_scope
:
/* a = 0 # <<<<<<<<<<<<<< */
__pyx_cur_scope->__pyx_v_a = __pyx_int_0
yield
设置 resume_label
和 returns(resume_label
允许您下次直接跳回):
__pyx_generator->resume_label = 1;
return __pyx_r;
循环稍微复杂一点,但基本相同——它使用 goto
跳入 C 循环(这是合法的)。
最后,一旦它到达终点就会引发 StopIteration
错误:
PyErr_SetNone(PyExc_StopIteration);
总而言之,Cython 完全按照建议您做的:它使用 __next__
或 next
方法定义了 class 并使用该 class 来跟踪状态。因为它是自动化的,所以它非常擅长跟踪引用计数,从而避免您遇到的 Segmentation Fault
错误。使用goto
到return到上一个执行点是高效的,但需要小心。
我明白为什么用单个 __next__
/next
函数重写 C 中的生成器函数没有吸引力,而 Cython 显然提供了一种无需自己编写 C 的直接方法,但它不使用任何特殊技术在您已被告知的内容之上进行翻译。
在我很快成功地用 C++ ( iterUniqueCombos()
:
def iterUniqueCombos(lstOfSortableItems, sizeOfCombo):
lstOfSortedItems = sorted(lstOfSortableItems)
sizeOfList = len(lstOfSortedItems)
lstComboCandidate = []
def idxNextUnique(idxItemOfList):
idxNextUniqueCandidate = idxItemOfList + 1
while (
idxNextUniqueCandidate < sizeOfList
and
lstOfSortedItems[idxNextUniqueCandidate] == lstOfSortedItems[idxItemOfList]
): # while
idxNextUniqueCandidate += 1
idxNextUnique = idxNextUniqueCandidate
return idxNextUnique
def combinate(idxItemOfList):
if len(lstComboCandidate) == sizeOfCombo:
yield tuple(lstComboCandidate)
elif sizeOfList - idxItemOfList >= sizeOfCombo - len(lstComboCandidate):
lstComboCandidate.append(lstOfSortedItems[idxItemOfList])
yield from combinate(idxItemOfList + 1)
lstComboCandidate.pop()
yield from combinate(idxNextUnique(idxItemOfList))
yield from combinate(0)
我对 Python 和 C++ 编程有一些基本的了解,但完全不知道如何 "translate" Pythons yield 到 C++ Python 扩展模块的代码。所以我的问题是:
How to write C++ code (of a Python module) able to return a Python iterator object?
欢迎任何帮助我入门的提示。
更新(状态 2017-05-07):
两个评论:yield 没有 C++ 等价物。我将从在 Python 中手动实现迭代器协议开始,以摆脱 yield 和 yield from 心态。 – user2357112 4 月 26 日在 1:16 和 danny
的回答中的提示这个问题的答案与询问 'How do I implement an iterator without using yield' 相同,但在C++ 扩展而不是纯 Python. 通过重写算法代码以消除 yield
并通过编写 C 代码将我的编程工作推向了重新发明轮子的错误方向从头开始的 Python 扩展模块(导致下雨 Segmentation Fault
错误)。
The state-of-the-art of my current knowledge on the subject of the question is that using Cython it is possible to translate the above Python code (which is using
yield
) directly into C code of a Python extension module.
这不仅可以按原样使用 Python 代码(无需重写任何内容),而且可以提高 Cython 使用 yield
的运行速度至少是使用 __iter__
和 __next__
重写算法 从迭代器 class 创建的扩展模块的两倍(后者有效,如果Python 脚本中没有添加 Cython 特定的速度优化代码)。
Python 中的迭代器是生成器的一种特殊形式,由包含方法 __iter__
和 next
的 class 实现,其中 __iter__
returns self
和 next
returns 每个值依次递增,在迭代结束时提高 StopIteration
- see PEP.
要提供 C++ 等效项,C++ 代码需要实现相同的 python 函数以符合协议。生成的扩展类型是一个迭代器。
换句话说,这个问题的答案与询问“如何在不使用 yield
的情况下实现迭代器”相同,而是在 C++ 扩展中纯 Python。关于堆栈溢出,有几个现有的答案。
注意 - next
在 Python 上是 __next__
3.
这更像是对你的问题编辑的回应而不是完整的答案 - 我同意 Danny 的回答的要点,你需要在 class 和 __next__
/next
方法(取决于 Python 的版本)。在您的编辑中,您断言它一定是可能的,因为 Cython 可以做到。我认为值得看看 Cython 究竟是如何做到的。
从一个基本示例开始(选择它是因为它有一些不同的 yield
语句和一个循环):
def basic_iter(n):
a = 0
b = 5
yield a
a+=3
yield b
b+=2
for i in range(n):
yield a+b+n
a = b+1
b*=2
yield 50
Cython 做的第一件事是定义一个 __pyx_CoroutineObject
C class 和一个实现 __next__
/next
的 __Pyx_Generator_Next
方法。 __pyx_CoroutineObject
的一些相关属性:
body
- 实现您定义的逻辑的 C 函数指针。resume_label
- 一个整数,用于记住您在body
定义的函数中的进度
closure
- 自定义创建的 C class,用于存储body
. 中使用的所有变量
稍微迂回一下,__Pyx_Generator_Next
调用 body
属性,它是您定义的 Python 代码的翻译。
然后让我们看看分配给 body
的函数是如何工作的 - 在我的例子中称为 __pyx_gb_5iters_2generator
。它做的第一件事是使用 resume_label
跳转到右边的 yield
语句:
switch (__pyx_generator->resume_label) {
case 0: goto __pyx_L3_first_run;
case 1: goto __pyx_L4_resume_from_yield;
case 2: goto __pyx_L5_resume_from_yield;
case 3: goto __pyx_L8_resume_from_yield;
case 4: goto __pyx_L9_resume_from_yield;
default: /* CPython raises the right error here */
__Pyx_RefNannyFinishContext();
return NULL;
}
任何变量赋值都是通过 closure
结构完成的(本地命名为 __pyx_cur_scope
:
/* a = 0 # <<<<<<<<<<<<<< */
__pyx_cur_scope->__pyx_v_a = __pyx_int_0
yield
设置 resume_label
和 returns(resume_label
允许您下次直接跳回):
__pyx_generator->resume_label = 1;
return __pyx_r;
循环稍微复杂一点,但基本相同——它使用 goto
跳入 C 循环(这是合法的)。
最后,一旦它到达终点就会引发 StopIteration
错误:
PyErr_SetNone(PyExc_StopIteration);
总而言之,Cython 完全按照建议您做的:它使用 __next__
或 next
方法定义了 class 并使用该 class 来跟踪状态。因为它是自动化的,所以它非常擅长跟踪引用计数,从而避免您遇到的 Segmentation Fault
错误。使用goto
到return到上一个执行点是高效的,但需要小心。
我明白为什么用单个 __next__
/next
函数重写 C 中的生成器函数没有吸引力,而 Cython 显然提供了一种无需自己编写 C 的直接方法,但它不使用任何特殊技术在您已被告知的内容之上进行翻译。