python 中将数组存储到持久内存的有效方法
Efficient way to store array to persistent memory in python
假设我们有一个像这样具有数百万个元素的长一维数组:
[0,1,1,1,1,2,1,1,1,1,1,1,1,...,1,2,2,2,2,2,2,2,4,4,4,4,4,4,4,4,4,3,4,1,1,1,1]
如果只有一个重复元素,我们可以使用稀疏数组,但由于它可以是任何类型的整数值(或一组标称元素),这并不能达到我想的效果(或者我错了在那里?)。
我了解到 PyTables 能够基于 HDF5 文件动态压缩这样的数据,据我所知,这似乎是 python 的首选选项。
是否有人对此有经验,可以判断这是否是一条合适的路线,或者是否有其他方法,在 cpu 和内存使用方面更有效(交易量最少) CPU 周期进入减小的内存大小)。
引用 this 精彩的答案,几年前对我有帮助:
Python-standard shelve 模块为持久对象提供类字典的接口。它适用于许多数据库后端,不受 RAM 的限制。使用 shelve
相对于直接使用数据库的优势在于,您现有的大部分代码都保持原样。这是以速度为代价的(与内存中的指令相比)和灵活性的代价(与直接使用数据库相比)。
如果我正确理解你的问题(关注的是存储,而不是读取),搁置绝对是正确的选择。
将监控线程以寻找关于该主题的任何其他创建答案。 :-)
我尝试使用您数据的重复性。假设您将数据存储在一个长序列中,例如一个列表:
long_sequence = [0,1,1,1,1,2,1,1,1,1,1,1,1,3,1,2,2,2,2,2,2,2,4,4,4,4,4,4,4,4,4,3,4,1,1,1,1]
现在我将两个连续元素之间的变化存储在元组列表中:
compressed_list = []
last_element = None
for i, element in enumerate(long_sequence):
if element == last_element: continue
else:
compressed_list.append((i, element))
last_element = element
# compressed_list:
[(0, 0),
(1, 1),
(5, 2),
(6, 1),
(13, 3),
(14, 1),
(15, 2),
(22, 4),
(31, 3),
(32, 4),
(33, 1)]
现在,这可以解决存储问题,但数据的访问可能仍然需要大量计算(使用纯 python):
def element_from_compressed_list_by_index(lst, idx):
for (i, element), (next_i, _) in zip(lst, lst[1:]):
if i <= idx < next_i: return element
else: raise KeyError("No Element found at index {}".format(idx))
# This does not work for the last repetitive section of the sequence,
# but the idea gets across I think...
element_from_compressed_list_by_index(compressed_list, 3)
# Out: 1
读取和存储数据的更好方法可能是 sqlite 数据库。
import sqlite3 as sq
con = sq.connect(':memory') # would be a file path in your case
# create a database table to store the compressed list
con.execute("CREATE TABLE comp_store (start_index int, element int);")
# add the data
con.executemany("INSERT INTO comp_store (start_index, element) VALUES (?,?)", compressed_list)
要使用其索引(下例中的 7
)从数据库中获取一个元素,您可以使用以下查询。
con.execute('SELECT element FROM comp_store WHERE start_index <= ? ORDER BY start_index DESC LIMIT 1',
(7,))
我认为 PyTables 仍然是正确的答案,据我所知,HDF5 格式被开源和专有产品广泛使用。但是如果你出于某种原因想使用 python 标准库,这个 也是一个不错的选择。
提示: 函数 zip
和 enumerate
在 python3 中比在 python2...
假设我们有一个像这样具有数百万个元素的长一维数组:
[0,1,1,1,1,2,1,1,1,1,1,1,1,...,1,2,2,2,2,2,2,2,4,4,4,4,4,4,4,4,4,3,4,1,1,1,1]
如果只有一个重复元素,我们可以使用稀疏数组,但由于它可以是任何类型的整数值(或一组标称元素),这并不能达到我想的效果(或者我错了在那里?)。
我了解到 PyTables 能够基于 HDF5 文件动态压缩这样的数据,据我所知,这似乎是 python 的首选选项。
是否有人对此有经验,可以判断这是否是一条合适的路线,或者是否有其他方法,在 cpu 和内存使用方面更有效(交易量最少) CPU 周期进入减小的内存大小)。
引用 this 精彩的答案,几年前对我有帮助:
Python-standard shelve 模块为持久对象提供类字典的接口。它适用于许多数据库后端,不受 RAM 的限制。使用 shelve
相对于直接使用数据库的优势在于,您现有的大部分代码都保持原样。这是以速度为代价的(与内存中的指令相比)和灵活性的代价(与直接使用数据库相比)。
如果我正确理解你的问题(关注的是存储,而不是读取),搁置绝对是正确的选择。
将监控线程以寻找关于该主题的任何其他创建答案。 :-)
我尝试使用您数据的重复性。假设您将数据存储在一个长序列中,例如一个列表:
long_sequence = [0,1,1,1,1,2,1,1,1,1,1,1,1,3,1,2,2,2,2,2,2,2,4,4,4,4,4,4,4,4,4,3,4,1,1,1,1]
现在我将两个连续元素之间的变化存储在元组列表中:
compressed_list = []
last_element = None
for i, element in enumerate(long_sequence):
if element == last_element: continue
else:
compressed_list.append((i, element))
last_element = element
# compressed_list:
[(0, 0),
(1, 1),
(5, 2),
(6, 1),
(13, 3),
(14, 1),
(15, 2),
(22, 4),
(31, 3),
(32, 4),
(33, 1)]
现在,这可以解决存储问题,但数据的访问可能仍然需要大量计算(使用纯 python):
def element_from_compressed_list_by_index(lst, idx):
for (i, element), (next_i, _) in zip(lst, lst[1:]):
if i <= idx < next_i: return element
else: raise KeyError("No Element found at index {}".format(idx))
# This does not work for the last repetitive section of the sequence,
# but the idea gets across I think...
element_from_compressed_list_by_index(compressed_list, 3)
# Out: 1
读取和存储数据的更好方法可能是 sqlite 数据库。
import sqlite3 as sq
con = sq.connect(':memory') # would be a file path in your case
# create a database table to store the compressed list
con.execute("CREATE TABLE comp_store (start_index int, element int);")
# add the data
con.executemany("INSERT INTO comp_store (start_index, element) VALUES (?,?)", compressed_list)
要使用其索引(下例中的 7
)从数据库中获取一个元素,您可以使用以下查询。
con.execute('SELECT element FROM comp_store WHERE start_index <= ? ORDER BY start_index DESC LIMIT 1',
(7,))
我认为 PyTables 仍然是正确的答案,据我所知,HDF5 格式被开源和专有产品广泛使用。但是如果你出于某种原因想使用 python 标准库,这个 也是一个不错的选择。
提示: 函数 zip
和 enumerate
在 python3 中比在 python2...