cython：字符串 ndarray 的内存视图（或直接 ndarray 索引）

Question

如何指定包含字符串的 ndarray 的内存视图？

char[:]、char*[:]、...不起作用。

为了说明，我的问题是函数的定义abc(...):

cdef void abc(char[:] in_buffer):
    cdef char * element
    element = address(in_buffer[1])
    ...

def main():
    cdef Py_ssize_t i, n = 100

    a = np.array(['ABC', 'D', 'EFGHI'])
    for i in range(n):
        abc(a)

如果内存视图不可行，我可以自己实现直接数组访问吗？我需要避免函数 abc(...).

的 GIL

编辑 1： 回应 Bi Rico 的回答。

我的目标是发布函数 abc(...) 的 GIL，并在其中使用 c 字符串函数处理 ndarray in_buffer 的字符串元素。 IE。类似于以下内容：

cdef void abc(char[:, ::1] in_buffer) nogil:
    cdef int max_elt_length = in_buffer.shape[1]+1
    cdef char element[max_elt_length+1]
    cdef int length

    for i in range(in_buffer.shape[0]+1):  # is this equivalent to in_buffer.dtype.itemsize + 1 ?
       element[max_elt_length] = 0   # add null-terminator for full-size elements
       memcpy(element, address(buffer[i, 0]), max_length)
       length = strlen(element)
       ...

Answer 1

问题是 numpy 数组数据类型必须具有固定大小。当你制作一个 "strings" 的数组时，你实际上是在制作一个固定长度的 char 数组。试试这个：

import numpy as np

array = np.array(["cat", "in", "a", "hat"])
array[2] = "Seuss"
print(array)
# ['cat' 'in' 'Seu' 'hat']
print(array.dtype)
# dtype('|S3')
print(array.dtype.itemsize)
# 3

考虑到这一点，您可以这样做：

cdef void abc(char[:, ::1] in_buffer):
    cdef char * element
    element = address(in_buffer[1, 0])

然后，当您将数组传递给 abc 时，您需要执行以下操作：

a = np.array(['ABC', 'D', 'EFGHI'])
array_view = a.view('uint8').reshape(a.size, a.dtype.itemsize)
abc(array_view)

这只是一种方法，但这是我在不了解您要尝试做什么的情况下推荐的方法。

cython：字符串 ndarray 的内存视图（或直接 ndarray 索引）

cython: memory view of ndarray of strings (or direct ndarray indexing)

python

numpy

cython