Python C API: 将 PyObjects 分配给字典导致内存泄漏

Python C API: Assigning PyObjects to a dictionary causes memory leak

我正在使用 Python C API 为 Python 编写 C++ 包装器。在我的例子中,我必须让 Python 脚本可以访问更大量的面向字节的数据。为此,我使用 PyByteArray_FromStringAndSize 方法生成 Python 字节数组 (https://docs.python.org/2.7/c-api/bytearray.html)。

直接返回这个bytearray时我没有遇到任何问题。但是,当将字节数组添加到 Python 字典中时,一旦字典被销毁,字节数组中的内存将不会被释放。

这可以通过在将字节数组对象添加到 Python 字典后调用字节数组对象 Py_DECREF 来解决。

下面是我的代码的完整工作示例,其中包含一个返回普通字节数组的方法 dummyArrPlain 和一个返回字典中的字节数组的方法 dummyArrInDict。除非调用 Py_DECREF(pyData);,否则第二种方法将产生内存泄漏。

我的问题是:为什么此时需要Py_DECREF。直觉上我会期望一旦字典被销毁 Py_DECREF 应该被调用。

我还为字典分配了如下值:

PyDict_SetItem(dict, PyString_FromString("i"), PyInt_FromLong(i));

如果不对创建的字符串和 long 调用 Py_DECREF,这也会产生内存泄漏吗?

这是我的虚拟 C++ 包装器:

#include <python2.7/Python.h>

static char module_docstring[] = "This is a module causing a memory leak";

static PyObject *dummyArrPlain(PyObject *self, PyObject *args);
static PyObject *dummyArrInDict(PyObject *self, PyObject *args);

static PyMethodDef module_methods[] = {
    {"dummy_arr_plain", dummyArrPlain, METH_VARARGS, "returns a plain dummy bytearray"},
    {"dummy_arr_in_dict", dummyArrInDict, METH_VARARGS, "returns a dummy bytearray in a dict"},
    {NULL, NULL, 0, NULL}
};

PyMODINIT_FUNC initlibdummy(void)
{
    PyObject *m = Py_InitModule("libdummy", module_methods);
    if (m == NULL)
        return;
}


static PyObject *dummyArrPlain(PyObject *self, PyObject *args)
{
    int len = 10000000;
    char* data = new char[len];
    for(int i=0; i<len; i++) {
        data[i] = 0;
    }

    PyObject * pyData = PyByteArray_FromStringAndSize(data, len);
    delete [] data;

    return pyData;
}


static PyObject *dummyArrInDict(PyObject *self, PyObject *args)
{
    int len = 10000000;
    char* data = new char[len];
    for(int i=0; i<len; i++) {
        data[i] = 0;
    }
    PyObject * pyData = PyByteArray_FromStringAndSize(data, len);
    delete [] data;

    PyObject *dict = PyDict_New();
    PyDict_SetItem(dict, PyString_FromString("data"), pyData);

    // memory leak without Py_DECREF(pyData);

    return dict;
}

还有一个使用包装器的虚拟 python 脚本:

import libdummy
import time

while True:
    a = libdummy.dummy_arr_in_dict()
    time.sleep(0.01)

这是[Python 2.0.Docs]: Ownership rules的事情。我将在 Python 2.7.10 上举例说明(很老了,但我认为行为并没有(显着)改变)。

PyByteArray_FromStringAndSize (bytearrayobject.c: 168) 创建一个新对象(使用 PyObject_New,并为缓冲区分配内存)。

默认情况下,该对象(或更好:任何新创建的对象)的 refcount1(由 _Py_NewReference), 这样当用户调用 del 时, 或者在程序退出时, refcount会递减,当达到0时,对象会被释放。

  • 这是返回对象的流程上的行为

  • 但是,在 dummyArrInDict 的情况下,PyDict_SetItem 会(间接地)执行 Py_INCREF of pyData(它做其他事情,但只有这在当前情况下是相关的),以 refcount of 2 因此内存泄漏

这基本上与您对 data 所做的相同:您为它分配内存,当您不再需要它时,您释放它(这是因为您不退货,只是暂时使用。

注意:使用 X 宏更安全(例如 [Python 2.Docs]: Py_XDECREF,特别是因为您没有测试NULL 返回的 PyObjects).

有关详细信息,另请参阅 [Python 2.Docs]: C API Reference