如何使用 h5py 编写空终止固定长度字符串的数据集
How to write a dataset of Null Terminated Fixed Length Strings with h5py
我有一个 C++ 示例,我正在尝试使用 h5py 重现它,但它没有按预期工作。我正在使用 h5py 获取空填充字符串,我希望它以空字符结尾。
这是我的 C++ 驱动程序...
main.cpp
#include <hdf5.h>
int main(void) {
auto file = H5Fcreate("test-c.h5", H5F_ACC_TRUNC,
H5P_DEFAULT, H5P_DEFAULT);
char strings[5][64] = {
"please work 0",
"please work 1",
"please work 2",
"please work 3",
"please work 4"};
auto H5T_C_S1_64 = H5Tcopy (H5T_C_S1);
H5Tset_size(H5T_C_S1_64, 64);
hsize_t dims[1] = {5};
auto dataspace = H5Screate_simple(1, dims, NULL);
auto dataset = H5Dcreate(file, "test dataset", H5T_C_S1_64, dataspace,
H5P_DEFAULT, H5P_DEFAULT, H5P_DEFAULT);
H5Dwrite (dataset, H5T_C_S1_64, H5S_ALL, H5S_ALL, H5P_DEFAULT, strings);
H5Dclose(dataset);
H5Sclose(dataspace);
H5Tclose(H5T_C_S1_64);
H5Fclose(file);
return 0;
}
我使用以下 SCons 脚本构建的。
SConstruct
env = Environment()
env.Append(LIBS=['hdf5'],
CPPFLAGS=['-std=c++11'])
env.Program('writeh5', 'main.cpp')
这是我的 python 脚本,我试图用它写出相同的 hdf5 文件。
main.py
import h5py
hdf5 = h5py.File('test-p.h5', 'w')
H5T_C_S1_64 = h5py.h5t.C_S1.copy()
H5T_C_S1_64.set_size(64)
print "Null Terminated String: %s" % (
H5T_C_S1_64.get_strpad() == h5py.h5t.STR_NULLTERM)
dataset = hdf5.create_dataset('test dataset', (5,),
data=['please work %s' % n for n in xrange(5)],
dtype=H5T_C_S1_64)
hdf5.close()
我正在使用 python v2.7.11,我已经用 h5py v2.5.0 和 v2.6.0 尝试过,结果相同。
>> python --version
Python 2.7.11
>> python -c "import h5py; print h5py.version.version"
2.5.0
>> tree
.
├── main.cpp
├── main.py
└── SConstruct
0 directories, 3 files
>> scons
scons: Reading SConscript files ...
scons: done reading SConscript files.
scons: Building targets ...
g++ -o main.o -c -std=c++11 main.cpp
g++ -o writeh5 main.o -lhdf5
scons: done building targets.
>> tree
.
├── main.cpp
├── main.o
├── main.py
├── SConstruct
└── writeh5
0 directories, 5 files
>> ./writeh5
>> tree
.
├── main.cpp
├── main.o
├── main.py
├── SConstruct
├── test-c.h5
└── writeh5
0 directories, 6 files
>> python main.py
Null Terminated String: True
>> tree
.
├── main.cpp
├── main.o
├── main.py
├── SConstruct
├── test-c.h5
├── test-p.h5
└── writeh5
0 directories, 7 files
>> h5dump test-c.h5
HDF5 "test-c.h5" {
GROUP "/" {
DATASET "test dataset" {
DATATYPE H5T_STRING {
STRSIZE 64;
STRPAD H5T_STR_NULLTERM;
CSET H5T_CSET_ASCII;
CTYPE H5T_C_S1;
}
DATASPACE SIMPLE { ( 5 ) / ( 5 ) }
DATA {
(0): "please work 0", "please work 1", "please work 2",
(3): "please work 3", "please work 4"
}
}
}
}
>> h5dump test-p.h5
HDF5 "test-p.h5" {
GROUP "/" {
DATASET "test dataset" {
DATATYPE H5T_STRING {
STRSIZE 64;
STRPAD H5T_STR_NULLPAD;
CSET H5T_CSET_ASCII;
CTYPE H5T_C_S1;
}
DATASPACE SIMPLE { ( 5 ) / ( 5 ) }
DATA {
(0): "please work 0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0",
(1): "please work 1[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0",
(2): "please work 2[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0",
(3): "please work 3[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0",
(4): "please work 4[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0"
}
}
}
}
正如您从上面的输出中看到的那样,在使用 h5py 时我仍然以空填充的固定长度字符串结束,即使我指定我想要空终止的固定长度字符串。
那么如何修改我的 python 脚本以在数据集中以空终止的固定长度字符串结束?如果它是 h5py 中的错误,是否有任何解决方法?
在此先感谢您的帮助。
编辑:在下方找到了适用于 'vanilla' h5py 的解决方案
在 h5py 源码中有如下 cython code:
cdef TypeStringID _c_string(dtype dt):
# Strings (fixed-length)
cdef hid_t tid
tid = H5Tcopy(H5T_C_S1)
H5Tset_size(tid, dt.itemsize)
H5Tset_strpad(tid, H5T_STR_NULLPAD)
return TypeStringID(tid)
我不完全确定它的作用。然而,在注释掉 H5Tset_strpad(tid, H5T_STR_NULLPAD)
行并编译库之后,问题似乎解决了,而 python2 setup.py test
没有报告任何意外的失败测试。它是唯一不在可变长度字符串上下文中引用 H5T_C_S1
的函数。看起来有点像一个错误。
因此,一种(hacky)方法是在脚本目录中执行以下命令。
$ https://github.com/h5py/h5py h5py-source
$ mkdir fake-root
$ sed -i '/H5Tset_strpad(tid, H5T_STR_NULLPAD)/d' h5py-source/h5py/h5t.pyx
$ (cd h5py-source; python2 setup.py install --root fake-root)
$ mv fake-root/usr/lib/python2.7/site-packages/h5py .
然后,当导入 h5py
时,您本地目录中的 h5py
将覆盖系统范围内安装的版本。在用户站点包、虚拟环境或打开问题中使用安装可能会更好。
请注意,应用此修复程序可能会以意想不到的方式破坏事物(我以前从未使用过 hdf5,也不知道这可能会产生什么影响)。真正的解决方案可能涉及从 dt
.
加载 strpad
编辑
我做了更多研究:
documentation 只列出了 3 种支持的字符串,零填充固定长度字符串和两种不同类型的可变长度字符串。没有提到零终止字符串。所以看起来 h5py public api 不支持空终止字符串(即使代码中提到了空 c 字符串)。
接下来,dtype 参数应该是一个有效的 numpy dtype。没有明确提及对 H5T 的支持。但是,H5T 类型仍然以某种方式被解释为字符串。更改填充不会更改 TypeStringID
中收到的 dtype
的任何属性。
numpy dtype 到 h5t 类型的转换发生在 dataset.py:736:
if isinstance(dtype, Datatype):
# Named types are used as-is
tid = dtype.id
dtype = tid.dtype # Following code needs this
else:
# Validate dtype
if dtype is None and data is None:
dtype = numpy.dtype("=f4")
elif dtype is None and data is not None:
dtype = data.dtype
else:
dtype = numpy.dtype(dtype)
tid = h5t.py_create(dtype, logical=1)
其中 numpy.dtype(H5T_C_S1)
给出了 kind='S'
的 dtype。
接下来,对 h5t.py_create(dtype, logical=1)
的调用将其从上方分派给 _c_string(dt)
。因此修复确实会破坏事情,因为所有固定长度的字符串最终都会以 null 终止。
不过,这也说明了一种更好的解决方法。通过从 H5T tid 构建 dtype,我们可以绕过 numpy.dtype
转换。
此代码可在 vanilla h5py 安装中正常运行:
import h5py
hdf5 = h5py.File('test-p.h5', 'w')
tid = h5py.h5t.C_S1.copy()
tid.set_size(64)
H5T_C_S1_64 = h5py.Datatype(tid)
dataset = hdf5.create_dataset('test dataset', (5,),
data=['please work %s' % n for n in range(5)],
dtype=H5T_C_S1_64)
hdf5.close()
这还允许您使用任何您想要的填充方案。但是,我找不到它的文档,所以 api 将来可能会改变。
我有一个 C++ 示例,我正在尝试使用 h5py 重现它,但它没有按预期工作。我正在使用 h5py 获取空填充字符串,我希望它以空字符结尾。
这是我的 C++ 驱动程序...
main.cpp
#include <hdf5.h>
int main(void) {
auto file = H5Fcreate("test-c.h5", H5F_ACC_TRUNC,
H5P_DEFAULT, H5P_DEFAULT);
char strings[5][64] = {
"please work 0",
"please work 1",
"please work 2",
"please work 3",
"please work 4"};
auto H5T_C_S1_64 = H5Tcopy (H5T_C_S1);
H5Tset_size(H5T_C_S1_64, 64);
hsize_t dims[1] = {5};
auto dataspace = H5Screate_simple(1, dims, NULL);
auto dataset = H5Dcreate(file, "test dataset", H5T_C_S1_64, dataspace,
H5P_DEFAULT, H5P_DEFAULT, H5P_DEFAULT);
H5Dwrite (dataset, H5T_C_S1_64, H5S_ALL, H5S_ALL, H5P_DEFAULT, strings);
H5Dclose(dataset);
H5Sclose(dataspace);
H5Tclose(H5T_C_S1_64);
H5Fclose(file);
return 0;
}
我使用以下 SCons 脚本构建的。
SConstruct
env = Environment()
env.Append(LIBS=['hdf5'],
CPPFLAGS=['-std=c++11'])
env.Program('writeh5', 'main.cpp')
这是我的 python 脚本,我试图用它写出相同的 hdf5 文件。
main.py
import h5py
hdf5 = h5py.File('test-p.h5', 'w')
H5T_C_S1_64 = h5py.h5t.C_S1.copy()
H5T_C_S1_64.set_size(64)
print "Null Terminated String: %s" % (
H5T_C_S1_64.get_strpad() == h5py.h5t.STR_NULLTERM)
dataset = hdf5.create_dataset('test dataset', (5,),
data=['please work %s' % n for n in xrange(5)],
dtype=H5T_C_S1_64)
hdf5.close()
我正在使用 python v2.7.11,我已经用 h5py v2.5.0 和 v2.6.0 尝试过,结果相同。
>> python --version
Python 2.7.11
>> python -c "import h5py; print h5py.version.version"
2.5.0
>> tree
.
├── main.cpp
├── main.py
└── SConstruct
0 directories, 3 files
>> scons
scons: Reading SConscript files ...
scons: done reading SConscript files.
scons: Building targets ...
g++ -o main.o -c -std=c++11 main.cpp
g++ -o writeh5 main.o -lhdf5
scons: done building targets.
>> tree
.
├── main.cpp
├── main.o
├── main.py
├── SConstruct
└── writeh5
0 directories, 5 files
>> ./writeh5
>> tree
.
├── main.cpp
├── main.o
├── main.py
├── SConstruct
├── test-c.h5
└── writeh5
0 directories, 6 files
>> python main.py
Null Terminated String: True
>> tree
.
├── main.cpp
├── main.o
├── main.py
├── SConstruct
├── test-c.h5
├── test-p.h5
└── writeh5
0 directories, 7 files
>> h5dump test-c.h5
HDF5 "test-c.h5" {
GROUP "/" {
DATASET "test dataset" {
DATATYPE H5T_STRING {
STRSIZE 64;
STRPAD H5T_STR_NULLTERM;
CSET H5T_CSET_ASCII;
CTYPE H5T_C_S1;
}
DATASPACE SIMPLE { ( 5 ) / ( 5 ) }
DATA {
(0): "please work 0", "please work 1", "please work 2",
(3): "please work 3", "please work 4"
}
}
}
}
>> h5dump test-p.h5
HDF5 "test-p.h5" {
GROUP "/" {
DATASET "test dataset" {
DATATYPE H5T_STRING {
STRSIZE 64;
STRPAD H5T_STR_NULLPAD;
CSET H5T_CSET_ASCII;
CTYPE H5T_C_S1;
}
DATASPACE SIMPLE { ( 5 ) / ( 5 ) }
DATA {
(0): "please work 0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0",
(1): "please work 1[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0",
(2): "please work 2[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0",
(3): "please work 3[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0",
(4): "please work 4[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0[=13=]0"
}
}
}
}
正如您从上面的输出中看到的那样,在使用 h5py 时我仍然以空填充的固定长度字符串结束,即使我指定我想要空终止的固定长度字符串。
那么如何修改我的 python 脚本以在数据集中以空终止的固定长度字符串结束?如果它是 h5py 中的错误,是否有任何解决方法?
在此先感谢您的帮助。
编辑:在下方找到了适用于 'vanilla' h5py 的解决方案
在 h5py 源码中有如下 cython code:
cdef TypeStringID _c_string(dtype dt):
# Strings (fixed-length)
cdef hid_t tid
tid = H5Tcopy(H5T_C_S1)
H5Tset_size(tid, dt.itemsize)
H5Tset_strpad(tid, H5T_STR_NULLPAD)
return TypeStringID(tid)
我不完全确定它的作用。然而,在注释掉 H5Tset_strpad(tid, H5T_STR_NULLPAD)
行并编译库之后,问题似乎解决了,而 python2 setup.py test
没有报告任何意外的失败测试。它是唯一不在可变长度字符串上下文中引用 H5T_C_S1
的函数。看起来有点像一个错误。
因此,一种(hacky)方法是在脚本目录中执行以下命令。
$ https://github.com/h5py/h5py h5py-source
$ mkdir fake-root
$ sed -i '/H5Tset_strpad(tid, H5T_STR_NULLPAD)/d' h5py-source/h5py/h5t.pyx
$ (cd h5py-source; python2 setup.py install --root fake-root)
$ mv fake-root/usr/lib/python2.7/site-packages/h5py .
然后,当导入 h5py
时,您本地目录中的 h5py
将覆盖系统范围内安装的版本。在用户站点包、虚拟环境或打开问题中使用安装可能会更好。
请注意,应用此修复程序可能会以意想不到的方式破坏事物(我以前从未使用过 hdf5,也不知道这可能会产生什么影响)。真正的解决方案可能涉及从 dt
.
编辑
我做了更多研究:
documentation 只列出了 3 种支持的字符串,零填充固定长度字符串和两种不同类型的可变长度字符串。没有提到零终止字符串。所以看起来 h5py public api 不支持空终止字符串(即使代码中提到了空 c 字符串)。
接下来,dtype 参数应该是一个有效的 numpy dtype。没有明确提及对 H5T 的支持。但是,H5T 类型仍然以某种方式被解释为字符串。更改填充不会更改 TypeStringID
中收到的 dtype
的任何属性。
numpy dtype 到 h5t 类型的转换发生在 dataset.py:736:
if isinstance(dtype, Datatype):
# Named types are used as-is
tid = dtype.id
dtype = tid.dtype # Following code needs this
else:
# Validate dtype
if dtype is None and data is None:
dtype = numpy.dtype("=f4")
elif dtype is None and data is not None:
dtype = data.dtype
else:
dtype = numpy.dtype(dtype)
tid = h5t.py_create(dtype, logical=1)
其中 numpy.dtype(H5T_C_S1)
给出了 kind='S'
的 dtype。
接下来,对 h5t.py_create(dtype, logical=1)
的调用将其从上方分派给 _c_string(dt)
。因此修复确实会破坏事情,因为所有固定长度的字符串最终都会以 null 终止。
不过,这也说明了一种更好的解决方法。通过从 H5T tid 构建 dtype,我们可以绕过 numpy.dtype
转换。
此代码可在 vanilla h5py 安装中正常运行:
import h5py
hdf5 = h5py.File('test-p.h5', 'w')
tid = h5py.h5t.C_S1.copy()
tid.set_size(64)
H5T_C_S1_64 = h5py.Datatype(tid)
dataset = hdf5.create_dataset('test dataset', (5,),
data=['please work %s' % n for n in range(5)],
dtype=H5T_C_S1_64)
hdf5.close()
这还允许您使用任何您想要的填充方案。但是,我找不到它的文档,所以 api 将来可能会改变。