编译器如何有效地优化 getline()?
How does the compiler optimize getline() so effectively?
我知道很多编译器的优化可能相当深奥,但我的示例非常简单,我想看看我是否能理解,是否有人知道它可以做什么。
我有一个 500 MB 的文本文件。我声明并初始化一个 fstream:
std::fstream file(path,std::ios::in)
我需要顺序读取文件。它是制表符分隔的,但字段长度未知,并且逐行变化。我需要对每一行进行的实际解析只增加了很少的时间(这真的让我感到惊讶,因为我在 getline 的每一行上都做了 string::find。我认为那会很慢)。
一般来说,我想在每一行中搜索一个字符串,并在找到它时中止循环。出于我自己的好奇心,我也让它递增并吐出行号,我确认这增加了很少的时间(5 秒左右),让我看看它如何超越短线并减慢长线。
我要找到的文本是标记 eof 的唯一字符串,因此它需要搜索每一行。我正在我的 phone 上执行此操作,因此对于格式问题我深表歉意,但这非常简单。我有一个函数,将我的 fstream 作为参考,将要查找的文本作为字符串并返回 std::size_t.
long long int lineNum = 0;
while (std::getline (file, line))
{
pos = line.find(text);
lineNum += 1;
std::cout << std::to_string(lineNum) << std::endl;
if (pos != -1)
return file.tellg():
}
return std::string::npos;
编辑:lingxi 指出这里不需要 to_string,谢谢。如前所述,完全省略行号计算和输出可以节省几秒钟,这在我预优化的示例中只占总数的一小部分。
这成功地跑遍了每一行,returns 408 秒到达结束位置。尝试将文件放入字符串流中,或者省略整个循环中的所有内容(只是 getline 直到最后,没有检查、搜索或显示),我的改进微乎其微。此外,为字符串预先保留一个巨大的 space 也没有帮助。
似乎getline完全是驱动程序。但是...如果我使用 /O2 标志 (MSVC++) 进行编译,我的速度会快得可笑 26 秒。此外,长线与短线相比没有明显的放缓。显然,编译器正在做一些非常不同的事情。我没有抱怨,但是关于它是如何实现的有什么想法吗?作为练习,我想尝试让我的代码在编译器优化之前执行得更快。
我打赌这与 getline 操作字符串的方式有关。只为字符串保留整个文件大小,并逐个字符读取,在我传递 /n 时递增我的行号会更快吗(可惜暂时无法测试)?另外,编译器会使用 mmap 之类的东西吗?
更新:今晚回家后我会post编码。看起来只要关闭运行时检查就可以将执行时间从 400 秒减少到 50 秒!我尝试使用原始 C 样式数组执行相同的功能。我不是很有经验,但很容易将数据转储到字符数组中,然后循环查找换行符或目标字符串的第一个字母。
即使在完全调试模式下,它也会在 54 秒内完成并正确找到字符串。 26 秒关闭检查,20 秒优化。因此,从我非正式的临时实验来看,字符串和流函数似乎受到了运行时检查的影响?再一次,我回家后会仔细检查。
这种显着加速的原因是 iostream class 层次结构是基于模板的(std::ostream
实际上是一个名为 std::basic_ostream
的模板的类型定义),并且很多它的代码在 headers 中。 C++ iostream 调用多个函数来处理流中的每个字节。然而,这些功能中的大多数都是相当微不足道的。通过启用优化,这些调用中的大多数都是内联的,向编译器暴露了这样一个事实,即 std::getline
本质上是将字符从一个缓冲区复制到另一个缓冲区,直到它找到换行符 - 通常这是 "hidden" 在几层函数调用。这可以进一步优化,将每字节的开销减少几个数量级。
优化版和non-optimized版本之间的缓冲行为实际上没有改变,否则加速会更高。
我知道很多编译器的优化可能相当深奥,但我的示例非常简单,我想看看我是否能理解,是否有人知道它可以做什么。
我有一个 500 MB 的文本文件。我声明并初始化一个 fstream:
std::fstream file(path,std::ios::in)
我需要顺序读取文件。它是制表符分隔的,但字段长度未知,并且逐行变化。我需要对每一行进行的实际解析只增加了很少的时间(这真的让我感到惊讶,因为我在 getline 的每一行上都做了 string::find。我认为那会很慢)。
一般来说,我想在每一行中搜索一个字符串,并在找到它时中止循环。出于我自己的好奇心,我也让它递增并吐出行号,我确认这增加了很少的时间(5 秒左右),让我看看它如何超越短线并减慢长线。
我要找到的文本是标记 eof 的唯一字符串,因此它需要搜索每一行。我正在我的 phone 上执行此操作,因此对于格式问题我深表歉意,但这非常简单。我有一个函数,将我的 fstream 作为参考,将要查找的文本作为字符串并返回 std::size_t.
long long int lineNum = 0;
while (std::getline (file, line))
{
pos = line.find(text);
lineNum += 1;
std::cout << std::to_string(lineNum) << std::endl;
if (pos != -1)
return file.tellg():
}
return std::string::npos;
编辑:lingxi 指出这里不需要 to_string,谢谢。如前所述,完全省略行号计算和输出可以节省几秒钟,这在我预优化的示例中只占总数的一小部分。
这成功地跑遍了每一行,returns 408 秒到达结束位置。尝试将文件放入字符串流中,或者省略整个循环中的所有内容(只是 getline 直到最后,没有检查、搜索或显示),我的改进微乎其微。此外,为字符串预先保留一个巨大的 space 也没有帮助。
似乎getline完全是驱动程序。但是...如果我使用 /O2 标志 (MSVC++) 进行编译,我的速度会快得可笑 26 秒。此外,长线与短线相比没有明显的放缓。显然,编译器正在做一些非常不同的事情。我没有抱怨,但是关于它是如何实现的有什么想法吗?作为练习,我想尝试让我的代码在编译器优化之前执行得更快。
我打赌这与 getline 操作字符串的方式有关。只为字符串保留整个文件大小,并逐个字符读取,在我传递 /n 时递增我的行号会更快吗(可惜暂时无法测试)?另外,编译器会使用 mmap 之类的东西吗?
更新:今晚回家后我会post编码。看起来只要关闭运行时检查就可以将执行时间从 400 秒减少到 50 秒!我尝试使用原始 C 样式数组执行相同的功能。我不是很有经验,但很容易将数据转储到字符数组中,然后循环查找换行符或目标字符串的第一个字母。
即使在完全调试模式下,它也会在 54 秒内完成并正确找到字符串。 26 秒关闭检查,20 秒优化。因此,从我非正式的临时实验来看,字符串和流函数似乎受到了运行时检查的影响?再一次,我回家后会仔细检查。
这种显着加速的原因是 iostream class 层次结构是基于模板的(std::ostream
实际上是一个名为 std::basic_ostream
的模板的类型定义),并且很多它的代码在 headers 中。 C++ iostream 调用多个函数来处理流中的每个字节。然而,这些功能中的大多数都是相当微不足道的。通过启用优化,这些调用中的大多数都是内联的,向编译器暴露了这样一个事实,即 std::getline
本质上是将字符从一个缓冲区复制到另一个缓冲区,直到它找到换行符 - 通常这是 "hidden" 在几层函数调用。这可以进一步优化,将每字节的开销减少几个数量级。
优化版和non-optimized版本之间的缓冲行为实际上没有改变,否则加速会更高。