xarray 或 dask 真的支持内存映射吗?
Do xarray or dask really support memory-mapping?
到目前为止,在我的实验中,我尝试过:
xr.open_dataset
with chunks
arg,并将数据加载到内存中。
- 设置一个
NetCDF4DataStore
,然后调用 ds['field'].values
并将数据加载到内存中。
- 用
mmap='r'
设置一个ScipyDataStore
,然后ds['field'].values
将数据加载到内存中。
据我所知,该设计似乎并不围绕在内存映射数组上实际应用 numpy 函数,而是将小块加载到内存中(有时使用内存映射来这样做)。例如,this comment. And somewhat related comment here关于 not xarray 无法确定一个 numpy 数组是否被映射。
我希望能够将数据表示和切片为 xarray.Dataset
,并能够调用 .values
(或 .data
)以获得 ndarray
,但让它保持映射(出于共享内存等目的)。
如果分块 dask 操作至少可以对内存映射数组进行操作,直到它实际需要改变某些东西,这似乎是可能的,因为 dask 似乎是围绕不可变数组设计的。
不过,我确实找到了一个 xarray 的技巧,就是这样做的:
data=np.load('file.npy', mmap_mode='r')
ds=xr.Dataset({'foo': (['dim1', 'dim2'], data)})
此时,无需将任何内容加载到内存中即可执行以下操作:
np.sum(ds['foo'].values)
np.sum(ds['foo'][::2,:].values)
...xarray 显然不知道该数组已映射,并且无法为此类情况强加 np.copy
。
是否有 "supported" 方法在 xarray 或 dask 中进行只读内存映射(或写时复制)?
xr.open_dataset
和 chunks=
不应立即将数据加载到内存中,它应该创建一个 dask.array
,它会延迟计算。
testfile = '/Users/mdurant/data/smith_sandwell_topo_v8_2.nc'
arr = xr.open_dataset(testfile, chunks={'latitude': 6336//11, 'longitude': 10800//15}).ROSE
arr
<xarray.DataArray 'ROSE' (latitude: 6336, longitude: 10800)>
dask.array</Users/mdurant/data/smith_sandwell_topo_v8_2.nc:/ROSE, shape=(6336, 10800), dtype=float64, chunksize=(576, 720)>
Coordinates:
* longitude (longitude) float32 0.0166667 0.05 0.0833333 0.116667 0.15 ...
* latitude (latitude) float32 -72.0009 -71.9905 -71.9802 -71.9699 ...
Attributes:
long_name: Topography and Bathymetry ( 8123m -> -10799m)
units: meters
valid_range: [-32766 32767]
unpacked_missing_value: -32767.0
(注意上面的dask.array)
对此的许多 xarray 操作可能是惰性的,并且是按块工作的(如果你切片,只会加载所需的块)
arr.sum()
<xarray.DataArray 'ROSE' ()>
dask.array<sum-aggregate, shape=(), dtype=float64, chunksize=()>
arr.sum().values # evaluates
然而,这与内存映射不同,所以如果这不能回答您的问题,我将不胜感激。
使用 dask 的线程调度程序,内存中的值可供其他工作人员使用,因此共享会非常有效。相反,分布式调度程序非常擅长识别何时可以在计算图中或图之间重用结果。
到目前为止,在我的实验中,我尝试过:
xr.open_dataset
withchunks
arg,并将数据加载到内存中。- 设置一个
NetCDF4DataStore
,然后调用ds['field'].values
并将数据加载到内存中。 - 用
mmap='r'
设置一个ScipyDataStore
,然后ds['field'].values
将数据加载到内存中。
据我所知,该设计似乎并不围绕在内存映射数组上实际应用 numpy 函数,而是将小块加载到内存中(有时使用内存映射来这样做)。例如,this comment. And somewhat related comment here关于 not xarray 无法确定一个 numpy 数组是否被映射。
我希望能够将数据表示和切片为 xarray.Dataset
,并能够调用 .values
(或 .data
)以获得 ndarray
,但让它保持映射(出于共享内存等目的)。
如果分块 dask 操作至少可以对内存映射数组进行操作,直到它实际需要改变某些东西,这似乎是可能的,因为 dask 似乎是围绕不可变数组设计的。
不过,我确实找到了一个 xarray 的技巧,就是这样做的:
data=np.load('file.npy', mmap_mode='r')
ds=xr.Dataset({'foo': (['dim1', 'dim2'], data)})
此时,无需将任何内容加载到内存中即可执行以下操作:
np.sum(ds['foo'].values)
np.sum(ds['foo'][::2,:].values)
...xarray 显然不知道该数组已映射,并且无法为此类情况强加 np.copy
。
是否有 "supported" 方法在 xarray 或 dask 中进行只读内存映射(或写时复制)?
xr.open_dataset
和 chunks=
不应立即将数据加载到内存中,它应该创建一个 dask.array
,它会延迟计算。
testfile = '/Users/mdurant/data/smith_sandwell_topo_v8_2.nc'
arr = xr.open_dataset(testfile, chunks={'latitude': 6336//11, 'longitude': 10800//15}).ROSE
arr
<xarray.DataArray 'ROSE' (latitude: 6336, longitude: 10800)>
dask.array</Users/mdurant/data/smith_sandwell_topo_v8_2.nc:/ROSE, shape=(6336, 10800), dtype=float64, chunksize=(576, 720)>
Coordinates:
* longitude (longitude) float32 0.0166667 0.05 0.0833333 0.116667 0.15 ...
* latitude (latitude) float32 -72.0009 -71.9905 -71.9802 -71.9699 ...
Attributes:
long_name: Topography and Bathymetry ( 8123m -> -10799m)
units: meters
valid_range: [-32766 32767]
unpacked_missing_value: -32767.0
(注意上面的dask.array)
对此的许多 xarray 操作可能是惰性的,并且是按块工作的(如果你切片,只会加载所需的块)
arr.sum()
<xarray.DataArray 'ROSE' ()>
dask.array<sum-aggregate, shape=(), dtype=float64, chunksize=()>
arr.sum().values # evaluates
然而,这与内存映射不同,所以如果这不能回答您的问题,我将不胜感激。
使用 dask 的线程调度程序,内存中的值可供其他工作人员使用,因此共享会非常有效。相反,分布式调度程序非常擅长识别何时可以在计算图中或图之间重用结果。