如何使用 C++ 库找出 HDF5 中数据集的 PredType
How to find out the PredType of a dataset in HDF5 using the C++ library
所以我刚刚发现,如果我将 unsigned char
数组写入我的 HDF5 文件中的 float
数据集,库不会抱怨。因此,我想在写之前检查一下这两者实际上是兼容的。所以对于我的 unsigned char
数组,我有相应的 PredType
。但是如果我没记错的话,数据集没有提供明显的方法来获取 PredType
。
问题:给定一个H5::Dataset
,如何获取用于初始化它的PredType
?
https://www.hdfgroup.org/HDF5/doc/cpplus_RM/readdata_8cpp-example.html 上的示例代码演示了如何执行此操作。
综上所述;您可以使用 DataSet::getTypeClass()
函数找到存储数据的 "class"。然而,此 "class" 并未完全定义数据类型,因为它不允许您推断大小(即 8 位、32 位等)或符号表示(即无符号、2 的补码)本机类型。
以float为例;您还需要使用 DataSet::getFloatType()
并使用 FloatType::getSize()
来推断数据类型是 PredType::NATIVE_FLOAT
还是 PredType::NATIVE_DOUBLE
,如:
auto dataClass = dataSet.getTypeClass();
if(dataClass == H5T_FLOAT)
{
auto floatType = dataSet.getFloatType();
size_t byteSize = floatType.getSize();
if(byteSize == 4)
{
// use PredType::NATIVE_FLOAT to write
}
else if(byteSize == 8)
{
// use PredType::NATIVE_DOUBLE to write
}
}
对于整数的符号表示,需要使用IntType::getSign()
。
另一种解决问题的方法(即找出 HDF5 数据集的数据类型)是使用 C++ 工具 HDFql,如下所示(此示例假定文件 example.h5
和数据集 my_dataset
已经存在):
// include HDFql C++ header file (make sure it can be found by the C++ compiler)
#include <iostream>
#include "HDFql.hpp"
int main(int argc, char *argv[])
{
int data_type;
// get data type of dataset "my_dataset" from HDF5 file "example.h5" and populate HDFql default cursor with it
HDFql::execute("SHOW DATA TYPE example.h5 my_dataset");
// move HDFql default cursor to first position
HDFql::cursorFirst();
// retrieve data type from HDFql default cursor
data_type = *HDFql::cursorGetInt();
// print message according to data type
if (data_type == HDFql::TinyInt || data_type == HDFql::VarTinyInt)
std::cout << "Data type is a char";
else if (data_type == HDFql::UnsignedTinyInt || data_type == HDFql::UnsignedVarTinyInt)
std::cout << "Data type is an unsigned char";
else if (data_type == HDFql::SmallInt || data_type == HDFql::VarSmallInt)
std::cout << "Data type is a short";
else if (data_type == HDFql::UnsignedSmallInt || data_type == HDFql::UnsignedVarSmallInt)
std::cout << "Data type is an unsigned short";
else if (data_type == HDFql::Int || data_type == HDFql::VarInt)
std::cout << "Data type is an int";
else if (data_type == HDFql::UnsignedInt || data_type == HDFql::UnsignedVarInt)
std::cout << "Data type is an unsigned int";
else if (data_type == HDFql::BigInt || data_type == HDFql::VarBigInt)
std::cout << "Data type is a long long";
else if (data_type == HDFql::UnsignedBigInt || data_type == HDFql::UnsignedVarBigInt)
std::cout << "Data type is an unsigned long long";
else if (data_type == HDFql::Float || data_type == HDFql::VarFloat)
std::cout << "Data type is a float";
else if (data_type == HDFql::Double || data_type == HDFql::VarDouble)
std::cout << "Data type is a double";
else if (data_type == HDFql::Char || data_type == HDFql::VarChar)
std::cout << "Data type is a char";
else if (data_type == HDFql::Opaque)
std::cout << "Data type is an opaque";
else if (data_type == HDFql::Enumeration)
std::cout << "Data type is an enumeration";
else if (data_type == HDFql::Compound)
std::cout << "Data type is a compound";
else
std::cout << "Unknown data type";
return 0;
}
最后,如果您需要获取数据集 my_dataset
的字节顺序或大小,请执行 HDFql::execute("SHOW ENDIANNESS example.h5 my_dataset");
或 HDFql::execute("SHOW SIZE example.h5 my_dataset");
。
所以我刚刚发现,如果我将 unsigned char
数组写入我的 HDF5 文件中的 float
数据集,库不会抱怨。因此,我想在写之前检查一下这两者实际上是兼容的。所以对于我的 unsigned char
数组,我有相应的 PredType
。但是如果我没记错的话,数据集没有提供明显的方法来获取 PredType
。
问题:给定一个H5::Dataset
,如何获取用于初始化它的PredType
?
https://www.hdfgroup.org/HDF5/doc/cpplus_RM/readdata_8cpp-example.html 上的示例代码演示了如何执行此操作。
综上所述;您可以使用 DataSet::getTypeClass()
函数找到存储数据的 "class"。然而,此 "class" 并未完全定义数据类型,因为它不允许您推断大小(即 8 位、32 位等)或符号表示(即无符号、2 的补码)本机类型。
以float为例;您还需要使用 DataSet::getFloatType()
并使用 FloatType::getSize()
来推断数据类型是 PredType::NATIVE_FLOAT
还是 PredType::NATIVE_DOUBLE
,如:
auto dataClass = dataSet.getTypeClass();
if(dataClass == H5T_FLOAT)
{
auto floatType = dataSet.getFloatType();
size_t byteSize = floatType.getSize();
if(byteSize == 4)
{
// use PredType::NATIVE_FLOAT to write
}
else if(byteSize == 8)
{
// use PredType::NATIVE_DOUBLE to write
}
}
对于整数的符号表示,需要使用IntType::getSign()
。
另一种解决问题的方法(即找出 HDF5 数据集的数据类型)是使用 C++ 工具 HDFql,如下所示(此示例假定文件 example.h5
和数据集 my_dataset
已经存在):
// include HDFql C++ header file (make sure it can be found by the C++ compiler)
#include <iostream>
#include "HDFql.hpp"
int main(int argc, char *argv[])
{
int data_type;
// get data type of dataset "my_dataset" from HDF5 file "example.h5" and populate HDFql default cursor with it
HDFql::execute("SHOW DATA TYPE example.h5 my_dataset");
// move HDFql default cursor to first position
HDFql::cursorFirst();
// retrieve data type from HDFql default cursor
data_type = *HDFql::cursorGetInt();
// print message according to data type
if (data_type == HDFql::TinyInt || data_type == HDFql::VarTinyInt)
std::cout << "Data type is a char";
else if (data_type == HDFql::UnsignedTinyInt || data_type == HDFql::UnsignedVarTinyInt)
std::cout << "Data type is an unsigned char";
else if (data_type == HDFql::SmallInt || data_type == HDFql::VarSmallInt)
std::cout << "Data type is a short";
else if (data_type == HDFql::UnsignedSmallInt || data_type == HDFql::UnsignedVarSmallInt)
std::cout << "Data type is an unsigned short";
else if (data_type == HDFql::Int || data_type == HDFql::VarInt)
std::cout << "Data type is an int";
else if (data_type == HDFql::UnsignedInt || data_type == HDFql::UnsignedVarInt)
std::cout << "Data type is an unsigned int";
else if (data_type == HDFql::BigInt || data_type == HDFql::VarBigInt)
std::cout << "Data type is a long long";
else if (data_type == HDFql::UnsignedBigInt || data_type == HDFql::UnsignedVarBigInt)
std::cout << "Data type is an unsigned long long";
else if (data_type == HDFql::Float || data_type == HDFql::VarFloat)
std::cout << "Data type is a float";
else if (data_type == HDFql::Double || data_type == HDFql::VarDouble)
std::cout << "Data type is a double";
else if (data_type == HDFql::Char || data_type == HDFql::VarChar)
std::cout << "Data type is a char";
else if (data_type == HDFql::Opaque)
std::cout << "Data type is an opaque";
else if (data_type == HDFql::Enumeration)
std::cout << "Data type is an enumeration";
else if (data_type == HDFql::Compound)
std::cout << "Data type is a compound";
else
std::cout << "Unknown data type";
return 0;
}
最后,如果您需要获取数据集 my_dataset
的字节顺序或大小,请执行 HDFql::execute("SHOW ENDIANNESS example.h5 my_dataset");
或 HDFql::execute("SHOW SIZE example.h5 my_dataset");
。