有效地 writing/reading 二进制文件的 '1' 和 '-1' 数组
Efficiently writing/reading an array of '1' and '-1's to a binary file
我是一名计算物理学研究生,我的研究要求我编写一个大型数组,将“1”和“-1”的值存储到一个二进制文件中。目前我想出了以下 MWE:
#include <fstream>
#include <sstream>
#include <bitset>
const int Num = 1024;
std::string int_array_to_string(int state[], int start, int finish){
std::ostringstream oss("");
for (int i=start; i<start+finish; i++)
switch(state[i]){
case -1: oss << 0; break;
case 1: oss << 1; break;
}
return oss.str();
}
void printToBinary(int state[], std::ostream &output){
for (int i=0; i<Num; i+=32){
std::bitset<32> x( int_array_to_string(state, i, 32));
unsigned long n = x.to_ulong();
output.write(reinterpret_cast<const char*>(&n), sizeof(n));
}
}
void fakeUpSomeData(int state[]){
int ans = 1;
for (int i=0; i<Num; i++){
ans *= -1;
state[i] = ans;
}
}
int main(void){
int state[Num] = {0};
fakeUpSomeData(state);
std::ofstream output("output.bin", std::ios::binary);
printToBinary(state, output);
return 0;
}
然而,这使我的程序 运行 比以前慢了三倍,我确信一定有更好的方法来做到这一点。
此外,稍后能够注册数据块会很有用,也就是说,如果我存储三个状态
{1,-1,1}
{1,-1,1}
{1,1,-1}
到一个文件中,如果存在一种方法来读取第一个块,然后是第二个块,然后是第三个块,那将会很有用。
一点 background/reasoning 为什么我需要这样做:我需要存储大约 1024*1e5 到 9632*1e6 这些整数来计算中子散射的 low/high 分辨率预测.因此,能够读出一些大小 'N' 的块将非常有用,而不是将 1e6 个单独的二进制文件存储在一个文件夹中(只是键入该选项听起来很荒谬!)。
最后我考虑了使用 HDF5 包,但它似乎有点矫枉过正,而且我无法让 MWE 使用它来工作。
任何关于如何改进 MWE 的想法都将不胜感激,感谢您抽出宝贵时间。
查看此答案:Writing a binary file in C++ very fast
总而言之,尝试使用 C 风格 I/O,即忘记输出流并使用 open() 和 write() 直接写入文件描述符。
您甚至可以使用缓冲区大小与将 NxN 二进制状态存储在单个块中所需字节数相同的 read() 并一次读取一个。
我是一名计算物理学研究生,我的研究要求我编写一个大型数组,将“1”和“-1”的值存储到一个二进制文件中。目前我想出了以下 MWE:
#include <fstream>
#include <sstream>
#include <bitset>
const int Num = 1024;
std::string int_array_to_string(int state[], int start, int finish){
std::ostringstream oss("");
for (int i=start; i<start+finish; i++)
switch(state[i]){
case -1: oss << 0; break;
case 1: oss << 1; break;
}
return oss.str();
}
void printToBinary(int state[], std::ostream &output){
for (int i=0; i<Num; i+=32){
std::bitset<32> x( int_array_to_string(state, i, 32));
unsigned long n = x.to_ulong();
output.write(reinterpret_cast<const char*>(&n), sizeof(n));
}
}
void fakeUpSomeData(int state[]){
int ans = 1;
for (int i=0; i<Num; i++){
ans *= -1;
state[i] = ans;
}
}
int main(void){
int state[Num] = {0};
fakeUpSomeData(state);
std::ofstream output("output.bin", std::ios::binary);
printToBinary(state, output);
return 0;
}
然而,这使我的程序 运行 比以前慢了三倍,我确信一定有更好的方法来做到这一点。
此外,稍后能够注册数据块会很有用,也就是说,如果我存储三个状态
{1,-1,1}
{1,-1,1}
{1,1,-1}
到一个文件中,如果存在一种方法来读取第一个块,然后是第二个块,然后是第三个块,那将会很有用。
一点 background/reasoning 为什么我需要这样做:我需要存储大约 1024*1e5 到 9632*1e6 这些整数来计算中子散射的 low/high 分辨率预测.因此,能够读出一些大小 'N' 的块将非常有用,而不是将 1e6 个单独的二进制文件存储在一个文件夹中(只是键入该选项听起来很荒谬!)。
最后我考虑了使用 HDF5 包,但它似乎有点矫枉过正,而且我无法让 MWE 使用它来工作。
任何关于如何改进 MWE 的想法都将不胜感激,感谢您抽出宝贵时间。
查看此答案:Writing a binary file in C++ very fast
总而言之,尝试使用 C 风格 I/O,即忘记输出流并使用 open() 和 write() 直接写入文件描述符。
您甚至可以使用缓冲区大小与将 NxN 二进制状态存储在单个块中所需字节数相同的 read() 并一次读取一个。