使用 python（numpy memmap、pytables 或其他？）对巨大矩阵进行快速下采样

Question

作为我的数据处理的一部分，我生成了 100000*100000 个单元的巨大非稀疏矩阵，我想将其下采样 10 倍以减少数据量。在这种情况下，我想对 10*10 像素的块进行平均，以将矩阵的大小从 100000*100000 减小到 10000*10000。

使用 python 最快的方法是什么？是否需要将原始数据保存为新的数据格式对我来说并不重要，因为我必须多次对同一数据集进行下采样。

目前我正在使用numpy.memmap:

import numpy as np

data_1 = 'data_1.dat'
date_2 = 'data_2.dat'
lines = 100000
pixels = 100000
window = 10

new_lines = lines / window
new_pixels = pixels / window
dat_1 = np.memmap(data_1, dtype='float32', mode='r', shape=(lines, pixels))
dat_2 = np.memmap(data_2, dtype='float32', mode='r', shape=(lines, pixels))

dat_in = dat_1 * dat_2
dat_out = dat_in.reshape([new_lines, window, new_pixels, window]).mean(3).mean(1)

但是对于大文件，此方法变得非常慢。这可能与这些文件的二进制数据有关，这些文件按行排序。因此，我认为将我的数据存储在块而不是行中的数据格式会更快，但我不确定性能增益是多少以及是否有 python 包支持这个。

在创建这么大的矩阵之前，我也考虑过对数据进行下采样（此处未显示），但我的输入数据是破碎且不规则的，因此会变得非常复杂。

Answer 1

这避免了中间副本，因为重塑保持尺寸连续

dat_in.reshape((lines/window, window, pixels/window, window)).mean(axis=(1,3))

Answer 2

基于，我认为这可能是一种相对较快的方法，具体取决于 reshape 给您带来的开销 memmap。

def downSample(a, window):
     i, j = a.shape
     ir = np.arange(0, i, window)
     jr = np.arange(0, j, window)
     n = 1./(window**2)
     return n * np.add.reduceat(np.add.reduceat(a, ir), jr, axis=1)

没有数据集很难测试速度。

使用 python（numpy memmap、pytables 或其他？）对巨大矩阵进行快速下采样

fast downsampling of huge matrix using python (numpy memmap, pytables or other?)

python

numpy

data-formats

downsampling

bigdata