覆盖大型 object(超过 30 个字段)的 istream 的最佳方法是什么?
What is the best way to override istream for large object (over 30 fields)?
我有一个非常大的文本文件,超过 1100 万 entries/lines。每行有35个值,每个值都是separated/delimited加一个“|”。
对于我正在阅读的每一行,我正在创建一个 object,“记录”。我将它们存储在记录向量中,因为我需要能够根据给定字段中的值对它们进行排序。 (如果有更好的方法,请提出)
我知道如何覆盖 istream>> 运算符,但我从来没有为这么大的 object 这样做过,而且我不确定最好的方法是什么。我尝试在每个分隔符之前创建标记
即:
using namespace std;
inline istream& operator>>(istream& is, Record& r) {
string line_of_text;
string token;
char delim = '|';
is >> temp;
token = line_of_text.substr(0, line_of_text.find(delim));
r.firstField = token;
// so on for each field in Record
return is;
}
但这非常不切实际且效率低下。
对于这么大的object,有没有合理的方法来做到这一点?在不浪费这么多内存的情况下解析这样的文本的最佳方法是什么?
输入示例行:
xx|0000|0| 0.00| 3.00|111|111| 5.70| 136000.00| 620.23| 80.00| 47.00| 0.000|固定|P|C| 80.00|满|SF|1.|P|会议|ME| 3| | |未报告 |WFHM |2 |N| |1|0|0|0|0|0| 126162.03| 0.00| 0.00| 0.00| 0.00| 0.00| 0.00| 0.00
我也试过了
inline istream& operator>>(istream& is, Record& r) {
return is >> r.fieldOne >> r.fieldTwo; //....etc
}
但这不起作用,因为许多字段不是用 space 分隔,而只是用 '|' 分隔,是否有优雅的方式让 >> 跳过 "|"就像空白 spaces 一样?请记住,字段有可能为空。
我真的很想一次找到成员指针语法的用途,所以...
您可以使用指向成员的语法和一组重载的帮助器来让编译器选择正确的转换器:
struct Record
{
int x;
std::string y;
double z;
void readInput(std::istream& in, int Record::*var)
{
std::string input;
std::getline(in, input, '|');
this->*var = std::stoi(input);
}
void readInput(std::istream& in, double Record::*var)
{
std::string input;
std::getline(in, input, '|');
this->*var = std::stod(input);
}
void readInput(std::istream& in, std::string Record::*var)
{
std::getline(in, this->*var, '|');
}
};
有了这个,operator >>
看起来像这样:
std::istream& operator>>(std::istream& in, Record& r)
{
r.readInput(in, &Record::x);
r.readInput(in, &Record::y);
r.readInput(in, &Record::z);
//no need to handle last value as special case as long as stream ends there and you don't care that it will be in fail() state afterwards
return in;
}
可以只提供自由函数,它采用引用而不是指向成员的指针,例如:
void readInput(std::istream& in, int& var)
{
std::string input;
std::getline(in, input, '|');
var = std::stoi(input);
}
在 operator >>
中的用法如下:
readInput(in, r.x);
这两种方法之间的核心区别 是您是否希望它只能与 Record
一起使用,或者您总是希望读取由 [=17 分隔的整数=] 来自 istreams.
我有一个非常大的文本文件,超过 1100 万 entries/lines。每行有35个值,每个值都是separated/delimited加一个“|”。
对于我正在阅读的每一行,我正在创建一个 object,“记录”。我将它们存储在记录向量中,因为我需要能够根据给定字段中的值对它们进行排序。 (如果有更好的方法,请提出)
我知道如何覆盖 istream>> 运算符,但我从来没有为这么大的 object 这样做过,而且我不确定最好的方法是什么。我尝试在每个分隔符之前创建标记 即:
using namespace std;
inline istream& operator>>(istream& is, Record& r) {
string line_of_text;
string token;
char delim = '|';
is >> temp;
token = line_of_text.substr(0, line_of_text.find(delim));
r.firstField = token;
// so on for each field in Record
return is;
}
但这非常不切实际且效率低下。
对于这么大的object,有没有合理的方法来做到这一点?在不浪费这么多内存的情况下解析这样的文本的最佳方法是什么?
输入示例行:
xx|0000|0| 0.00| 3.00|111|111| 5.70| 136000.00| 620.23| 80.00| 47.00| 0.000|固定|P|C| 80.00|满|SF|1.|P|会议|ME| 3| | |未报告 |WFHM |2 |N| |1|0|0|0|0|0| 126162.03| 0.00| 0.00| 0.00| 0.00| 0.00| 0.00| 0.00
我也试过了
inline istream& operator>>(istream& is, Record& r) {
return is >> r.fieldOne >> r.fieldTwo; //....etc
}
但这不起作用,因为许多字段不是用 space 分隔,而只是用 '|' 分隔,是否有优雅的方式让 >> 跳过 "|"就像空白 spaces 一样?请记住,字段有可能为空。
我真的很想一次找到成员指针语法的用途,所以...
您可以使用指向成员的语法和一组重载的帮助器来让编译器选择正确的转换器:
struct Record
{
int x;
std::string y;
double z;
void readInput(std::istream& in, int Record::*var)
{
std::string input;
std::getline(in, input, '|');
this->*var = std::stoi(input);
}
void readInput(std::istream& in, double Record::*var)
{
std::string input;
std::getline(in, input, '|');
this->*var = std::stod(input);
}
void readInput(std::istream& in, std::string Record::*var)
{
std::getline(in, this->*var, '|');
}
};
有了这个,operator >>
看起来像这样:
std::istream& operator>>(std::istream& in, Record& r)
{
r.readInput(in, &Record::x);
r.readInput(in, &Record::y);
r.readInput(in, &Record::z);
//no need to handle last value as special case as long as stream ends there and you don't care that it will be in fail() state afterwards
return in;
}
可以只提供自由函数,它采用引用而不是指向成员的指针,例如:
void readInput(std::istream& in, int& var)
{
std::string input;
std::getline(in, input, '|');
var = std::stoi(input);
}
在 operator >>
中的用法如下:
readInput(in, r.x);
这两种方法之间的核心区别 是您是否希望它只能与 Record
一起使用,或者您总是希望读取由 [=17 分隔的整数=] 来自 istreams.