Python C API: 将 PyObjects 分配给字典导致内存泄漏
Python C API: Assigning PyObjects to a dictionary causes memory leak
我正在使用 Python C API 为 Python 编写 C++ 包装器。在我的例子中,我必须让 Python 脚本可以访问更大量的面向字节的数据。为此,我使用 PyByteArray_FromStringAndSize
方法生成 Python 字节数组 (https://docs.python.org/2.7/c-api/bytearray.html)。
直接返回这个bytearray时我没有遇到任何问题。但是,当将字节数组添加到 Python 字典中时,一旦字典被销毁,字节数组中的内存将不会被释放。
这可以通过在将字节数组对象添加到 Python 字典后调用字节数组对象 Py_DECREF
来解决。
下面是我的代码的完整工作示例,其中包含一个返回普通字节数组的方法 dummyArrPlain
和一个返回字典中的字节数组的方法 dummyArrInDict
。除非调用 Py_DECREF(pyData);
,否则第二种方法将产生内存泄漏。
我的问题是:为什么此时需要Py_DECREF
。直觉上我会期望一旦字典被销毁 Py_DECREF
应该被调用。
我还为字典分配了如下值:
PyDict_SetItem(dict, PyString_FromString("i"), PyInt_FromLong(i));
如果不对创建的字符串和 long 调用 Py_DECREF
,这也会产生内存泄漏吗?
这是我的虚拟 C++ 包装器:
#include <python2.7/Python.h>
static char module_docstring[] = "This is a module causing a memory leak";
static PyObject *dummyArrPlain(PyObject *self, PyObject *args);
static PyObject *dummyArrInDict(PyObject *self, PyObject *args);
static PyMethodDef module_methods[] = {
{"dummy_arr_plain", dummyArrPlain, METH_VARARGS, "returns a plain dummy bytearray"},
{"dummy_arr_in_dict", dummyArrInDict, METH_VARARGS, "returns a dummy bytearray in a dict"},
{NULL, NULL, 0, NULL}
};
PyMODINIT_FUNC initlibdummy(void)
{
PyObject *m = Py_InitModule("libdummy", module_methods);
if (m == NULL)
return;
}
static PyObject *dummyArrPlain(PyObject *self, PyObject *args)
{
int len = 10000000;
char* data = new char[len];
for(int i=0; i<len; i++) {
data[i] = 0;
}
PyObject * pyData = PyByteArray_FromStringAndSize(data, len);
delete [] data;
return pyData;
}
static PyObject *dummyArrInDict(PyObject *self, PyObject *args)
{
int len = 10000000;
char* data = new char[len];
for(int i=0; i<len; i++) {
data[i] = 0;
}
PyObject * pyData = PyByteArray_FromStringAndSize(data, len);
delete [] data;
PyObject *dict = PyDict_New();
PyDict_SetItem(dict, PyString_FromString("data"), pyData);
// memory leak without Py_DECREF(pyData);
return dict;
}
还有一个使用包装器的虚拟 python 脚本:
import libdummy
import time
while True:
a = libdummy.dummy_arr_in_dict()
time.sleep(0.01)
这是[Python 2.0.Docs]: Ownership rules的事情。我将在 Python 2.7.10 上举例说明(很老了,但我认为行为并没有(显着)改变)。
PyByteArray_FromStringAndSize (bytearrayobject.c: 168) 创建一个新对象(使用 PyObject_New,并为缓冲区分配内存)。
默认情况下,该对象(或更好:任何新创建的对象)的 refcount 是 1(由 _Py_NewReference), 这样当用户调用 del 时, 或者在程序退出时, refcount会递减,当达到0时,对象会被释放。
这是返回对象的流程上的行为
但是,在 dummyArrInDict 的情况下,PyDict_SetItem 会(间接地)执行 Py_INCREF of pyData(它做其他事情,但只有这在当前情况下是相关的),以 refcount of 2 因此内存泄漏
这基本上与您对 data 所做的相同:您为它分配内存,当您不再需要它时,您释放它(这是因为您不退货,只是暂时使用。
注意:使用 X 宏更安全(例如 [Python 2.Docs]: Py_XDECREF,特别是因为您没有测试NULL 返回的 PyObjects).
有关详细信息,另请参阅 [Python 2.Docs]: C API Reference。
我正在使用 Python C API 为 Python 编写 C++ 包装器。在我的例子中,我必须让 Python 脚本可以访问更大量的面向字节的数据。为此,我使用 PyByteArray_FromStringAndSize
方法生成 Python 字节数组 (https://docs.python.org/2.7/c-api/bytearray.html)。
直接返回这个bytearray时我没有遇到任何问题。但是,当将字节数组添加到 Python 字典中时,一旦字典被销毁,字节数组中的内存将不会被释放。
这可以通过在将字节数组对象添加到 Python 字典后调用字节数组对象 Py_DECREF
来解决。
下面是我的代码的完整工作示例,其中包含一个返回普通字节数组的方法 dummyArrPlain
和一个返回字典中的字节数组的方法 dummyArrInDict
。除非调用 Py_DECREF(pyData);
,否则第二种方法将产生内存泄漏。
我的问题是:为什么此时需要Py_DECREF
。直觉上我会期望一旦字典被销毁 Py_DECREF
应该被调用。
我还为字典分配了如下值:
PyDict_SetItem(dict, PyString_FromString("i"), PyInt_FromLong(i));
如果不对创建的字符串和 long 调用 Py_DECREF
,这也会产生内存泄漏吗?
这是我的虚拟 C++ 包装器:
#include <python2.7/Python.h>
static char module_docstring[] = "This is a module causing a memory leak";
static PyObject *dummyArrPlain(PyObject *self, PyObject *args);
static PyObject *dummyArrInDict(PyObject *self, PyObject *args);
static PyMethodDef module_methods[] = {
{"dummy_arr_plain", dummyArrPlain, METH_VARARGS, "returns a plain dummy bytearray"},
{"dummy_arr_in_dict", dummyArrInDict, METH_VARARGS, "returns a dummy bytearray in a dict"},
{NULL, NULL, 0, NULL}
};
PyMODINIT_FUNC initlibdummy(void)
{
PyObject *m = Py_InitModule("libdummy", module_methods);
if (m == NULL)
return;
}
static PyObject *dummyArrPlain(PyObject *self, PyObject *args)
{
int len = 10000000;
char* data = new char[len];
for(int i=0; i<len; i++) {
data[i] = 0;
}
PyObject * pyData = PyByteArray_FromStringAndSize(data, len);
delete [] data;
return pyData;
}
static PyObject *dummyArrInDict(PyObject *self, PyObject *args)
{
int len = 10000000;
char* data = new char[len];
for(int i=0; i<len; i++) {
data[i] = 0;
}
PyObject * pyData = PyByteArray_FromStringAndSize(data, len);
delete [] data;
PyObject *dict = PyDict_New();
PyDict_SetItem(dict, PyString_FromString("data"), pyData);
// memory leak without Py_DECREF(pyData);
return dict;
}
还有一个使用包装器的虚拟 python 脚本:
import libdummy
import time
while True:
a = libdummy.dummy_arr_in_dict()
time.sleep(0.01)
这是[Python 2.0.Docs]: Ownership rules的事情。我将在 Python 2.7.10 上举例说明(很老了,但我认为行为并没有(显着)改变)。
PyByteArray_FromStringAndSize (bytearrayobject.c: 168) 创建一个新对象(使用 PyObject_New,并为缓冲区分配内存)。
默认情况下,该对象(或更好:任何新创建的对象)的 refcount 是 1(由 _Py_NewReference), 这样当用户调用 del 时, 或者在程序退出时, refcount会递减,当达到0时,对象会被释放。
这是返回对象的流程上的行为
但是,在 dummyArrInDict 的情况下,PyDict_SetItem 会(间接地)执行 Py_INCREF of pyData(它做其他事情,但只有这在当前情况下是相关的),以 refcount of 2 因此内存泄漏
这基本上与您对 data 所做的相同:您为它分配内存,当您不再需要它时,您释放它(这是因为您不退货,只是暂时使用。
注意:使用 X 宏更安全(例如 [Python 2.Docs]: Py_XDECREF,特别是因为您没有测试NULL 返回的 PyObjects).
有关详细信息,另请参阅 [Python 2.Docs]: C API Reference。