如何编写能够return Python 迭代器对象的(Python 模块的C 代码?

How to write C code (of a Python module) able to return a Python iterator object?

在我很快成功地用 C++ ( ) 编写了一个简约的 Python3.6 扩展模块之后,我计划提供一个 Python 模块,它的作用与以下相同Python 函数 iterUniqueCombos():

def iterUniqueCombos(lstOfSortableItems, sizeOfCombo):
    lstOfSortedItems = sorted(lstOfSortableItems)
    sizeOfList = len(lstOfSortedItems)

    lstComboCandidate = []

    def idxNextUnique(idxItemOfList):
        idxNextUniqueCandidate = idxItemOfList + 1

        while (
                idxNextUniqueCandidate < sizeOfList 
                    and 
                lstOfSortedItems[idxNextUniqueCandidate] == lstOfSortedItems[idxItemOfList]
        ): # while
            idxNextUniqueCandidate += 1

        idxNextUnique = idxNextUniqueCandidate

        return idxNextUnique

    def combinate(idxItemOfList):
        if len(lstComboCandidate) == sizeOfCombo:
            yield tuple(lstComboCandidate)
        elif sizeOfList - idxItemOfList >= sizeOfCombo - len(lstComboCandidate):
            lstComboCandidate.append(lstOfSortedItems[idxItemOfList])
            yield from combinate(idxItemOfList + 1)
            lstComboCandidate.pop()
            yield from combinate(idxNextUnique(idxItemOfList))

    yield from combinate(0)

我对 Python 和 C++ 编程有一些基本的了解,但完全不知道如何 "translate" Pythons yield 到 C++ Python 扩展模块的代码。所以我的问题是:

How to write C++ code (of a Python module) able to return a Python iterator object?

欢迎任何帮助我入门的提示。

更新(状态 2017-05-07):

两个评论:yield 没有 C++ 等价物。我将从在 Python 中手动实现迭代器协议开始,以摆脱 yield 和 yield from 心态。 – user2357112 4 月 26 日在 1:16danny 的回答中的提示这个问题的答案与询问 'How do I implement an iterator without using yield' 相同,但在C++ 扩展而不是纯 Python. 通过重写算法代码以消除 yield 并通过编写 C 代码将我的编程工作推向了重新发明轮子的错误方向从头开始的 Python 扩展模块(导致下雨 Segmentation Fault 错误)。

The state-of-the-art of my current knowledge on the subject of the question is that using Cython it is possible to translate the above Python code (which is using yield) directly into C code of a Python extension module.

这不仅可以按原样使用 Python 代码(无需重写任何内容),而且可以提高 Cython 使用 yield 的运行速度至少是使用 __iter____next__ 重写算法 从迭代器 class 创建的扩展模块的两倍(后者有效,如果Python 脚本中没有添加 Cython 特定的速度优化代码)

Python 中的迭代器是生成器的一种特殊形式,由包含方法 __iter__next 的 class 实现,其中 __iter__ returns selfnext returns 每个值依次递增,在迭代结束时提高 StopIteration - see PEP.

要提供 C++ 等效项,C++ 代码需要实现相同的 python 函数以符合协议。生成的扩展类型是一个迭代器。

换句话说,这个问题的答案与询问“如何在不使用 yield 的情况下实现迭代器”相同,而是在 C++ 扩展中纯 Python。关于堆栈溢出,有几个现有的答案。

注意 - next 在 Python 上是 __next__ 3.

这更像是对你的问题编辑的回应而不是完整的答案 - 我同意 Danny 的回答的要点,你需要在 class 和 __next__/next 方法(取决于 Python 的版本)。在您的编辑中,您断言它一定是可能的,因为 Cython 可以做到。我认为值得看看 Cython 究竟是如何做到的。

从一个基本示例开始(选择它是因为它有一些不同的 yield 语句和一个循环):

def basic_iter(n):
    a = 0
    b = 5
    yield a
    a+=3
    yield b
    b+=2

    for i in range(n):
        yield a+b+n
        a = b+1
        b*=2
    yield 50

Cython 做的第一件事是定义一个 __pyx_CoroutineObject C class 和一个实现 __next__/next__Pyx_Generator_Next 方法。 __pyx_CoroutineObject的一些相关属性:

  • body - 实现您定义的逻辑的 C 函数指针。
  • resume_label - 一个整数,用于记住您在 body
  • 定义的函数中的进度
  • closure - 自定义创建的 C class,用于存储 body.
  • 中使用的所有变量

稍微迂回一下,__Pyx_Generator_Next 调用 body 属性,它是您定义的 Python 代码的翻译。

然后让我们看看分配给 body 的函数是如何工作的 - 在我的例子中称为 __pyx_gb_5iters_2generator。它做的第一件事是使用 resume_label 跳转到右边的 yield 语句:

switch (__pyx_generator->resume_label) {
    case 0: goto __pyx_L3_first_run;
    case 1: goto __pyx_L4_resume_from_yield;
    case 2: goto __pyx_L5_resume_from_yield;
    case 3: goto __pyx_L8_resume_from_yield;
    case 4: goto __pyx_L9_resume_from_yield;
    default: /* CPython raises the right error here */
    __Pyx_RefNannyFinishContext();
    return NULL;
  }

任何变量赋值都是通过 closure 结构完成的(本地命名为 __pyx_cur_scope:

/*     a = 0             # <<<<<<<<<<<<<< */
__pyx_cur_scope->__pyx_v_a = __pyx_int_0

yield 设置 resume_label 和 returns(resume_label 允许您下次直接跳回):

__pyx_generator->resume_label = 1;
return __pyx_r;

循环稍微复杂一点,但基本相同——它使用 goto 跳入 C 循环(这是合法的)。

最后,一旦它到达终点就会引发 StopIteration 错误:

PyErr_SetNone(PyExc_StopIteration);

总而言之,Cython 完全按照建议您做的:它使用 __next__next 方法定义了 class 并使用该 class 来跟踪状态。因为它是自动化的,所以它非常擅长跟踪引用计数,从而避免您遇到的 Segmentation Fault 错误。使用goto到return到上一个执行点是高效的,但需要小心。

我明白为什么用单个 __next__/next 函数重写 C 中的生成器函数没有吸引力,而 Cython 显然提供了一种无需自己编写 C 的直接方法,但它不使用任何特殊技术在您已被告知的内容之上进行翻译。