当vector过大时如何解决C++中内存不足的问题?
How to solve the issue of not enough memory in C++ when vector's size is too large?
判断两个向量是否相同
见下方代码
#include <iostream>
#include <vector>
#include <string>
int main(void) {
std::vector<std::string> vstr1(131, "asdf");
std::vector<std::string> vstr2(33131, "asdf");
std::cout << (vstr1 == vstr2) << std::endl;;
std::cout << "******************************" << std::endl;
return 0;
}
它工作正常。
现在我将 vstr2 的大小更改为非常 large,例如 33333333333131
#include <iostream>
#include <vector>
#include <string>
int main(void) {
std::vector<std::string> vstr1(131, "asdf");
std::vector<std::string> vstr2(33333333333131, "asdf");
std::cout << (vstr1 == vstr2) << std::endl;;
std::cout << "******************************" << std::endl;
return 0;
}
不工作,错误信息是
terminate called after throwing an instance of 'std::bad_alloc'
what() std::bad_alloc
Aborted (core dumped) a.out
我已经收集到由于内存分配失败而发生的错误。
如何处理非常大的向量?
这里有两个问题:
1) 如果每个 std::string
只需要 1 个字节的 RAM 来存储,那么 33333333333131 个字符串的向量将需要大约 30 TB 的数据。实际上,每个 std:string
需要几十个字节(至少),因此要求会更大。您的计算机上不太可能有那么多 RAM(或交换 space)可用。
2) 如果您的计算机 运行 处于 32 位模式,则您的进程的地址 space(通常)被限制为少于 2^32 字节(又名 4 GB) -- 如果您的计算机启用了一些特殊的分页技巧,可能会少一点,或者多几 GB。所以在那种情况下,即使你有 30+TB 的内存,你也无法直接访问所有内存。
至于如何处理像 tera-vector 这样的非常大的数据结构,通常要考虑的阈值是您是否希望安装足够的物理 RAM 以将所有数据放入 RAM。如果你这样做了,那就太好了——只需使用一个向量(或任何你喜欢的内存数据结构)并使用它。如果没有,如果你已经配置了足够的交换 space 来保存数据,你可能仍然可以使用内存中的数据结构,但是由于磁盘 I/O 比 RAM 慢得多,你可能会发现对你的目的来说太慢了。
如果您无法将数据结构放入 RAM,那么您有以下几种选择:
将数据结构拆分为可管理大小的较小块,一次只处理一个块,而不是试图一次处理整个块
将数据保存在磁盘上而不是内存中,一次只加载其中的一部分,对其进行操作,然后写出结果。 (这实际上只是 (1) 的变体)
将任务拆分到多台计算机上,让每台计算机并行处理部分任务。继续添加计算机,直到您有足够的计算机来充分处理这项工作。
退后一步,重新考虑您要解决的问题。它真的需要存储那么多数据吗?为什么?是否有任何可能的替代方法来解决可以减少存储需求的问题?如果您需要存储数 TB 的数据,您可能确切地知道自己在做什么(因此可能不会在 Whosebug 上询问有关它的问题),或者您正在做一些非常低效的事情。
(不得已)购买更多存储硬件。如今,您只需花费一辆新法拉利的成本就可以获得一台具有 30 TB 磁盘存储空间和 0.5 TB RAM 的计算机,所以请尽情享受吧! :)
判断两个向量是否相同
见下方代码
#include <iostream>
#include <vector>
#include <string>
int main(void) {
std::vector<std::string> vstr1(131, "asdf");
std::vector<std::string> vstr2(33131, "asdf");
std::cout << (vstr1 == vstr2) << std::endl;;
std::cout << "******************************" << std::endl;
return 0;
}
它工作正常。
现在我将 vstr2 的大小更改为非常 large,例如 33333333333131
#include <iostream>
#include <vector>
#include <string>
int main(void) {
std::vector<std::string> vstr1(131, "asdf");
std::vector<std::string> vstr2(33333333333131, "asdf");
std::cout << (vstr1 == vstr2) << std::endl;;
std::cout << "******************************" << std::endl;
return 0;
}
不工作,错误信息是
terminate called after throwing an instance of 'std::bad_alloc'
what() std::bad_alloc
Aborted (core dumped) a.out
我已经收集到由于内存分配失败而发生的错误。
如何处理非常大的向量?
这里有两个问题:
1) 如果每个 std::string
只需要 1 个字节的 RAM 来存储,那么 33333333333131 个字符串的向量将需要大约 30 TB 的数据。实际上,每个 std:string
需要几十个字节(至少),因此要求会更大。您的计算机上不太可能有那么多 RAM(或交换 space)可用。
2) 如果您的计算机 运行 处于 32 位模式,则您的进程的地址 space(通常)被限制为少于 2^32 字节(又名 4 GB) -- 如果您的计算机启用了一些特殊的分页技巧,可能会少一点,或者多几 GB。所以在那种情况下,即使你有 30+TB 的内存,你也无法直接访问所有内存。
至于如何处理像 tera-vector 这样的非常大的数据结构,通常要考虑的阈值是您是否希望安装足够的物理 RAM 以将所有数据放入 RAM。如果你这样做了,那就太好了——只需使用一个向量(或任何你喜欢的内存数据结构)并使用它。如果没有,如果你已经配置了足够的交换 space 来保存数据,你可能仍然可以使用内存中的数据结构,但是由于磁盘 I/O 比 RAM 慢得多,你可能会发现对你的目的来说太慢了。
如果您无法将数据结构放入 RAM,那么您有以下几种选择:
将数据结构拆分为可管理大小的较小块,一次只处理一个块,而不是试图一次处理整个块
将数据保存在磁盘上而不是内存中,一次只加载其中的一部分,对其进行操作,然后写出结果。 (这实际上只是 (1) 的变体)
将任务拆分到多台计算机上,让每台计算机并行处理部分任务。继续添加计算机,直到您有足够的计算机来充分处理这项工作。
退后一步,重新考虑您要解决的问题。它真的需要存储那么多数据吗?为什么?是否有任何可能的替代方法来解决可以减少存储需求的问题?如果您需要存储数 TB 的数据,您可能确切地知道自己在做什么(因此可能不会在 Whosebug 上询问有关它的问题),或者您正在做一些非常低效的事情。
(不得已)购买更多存储硬件。如今,您只需花费一辆新法拉利的成本就可以获得一台具有 30 TB 磁盘存储空间和 0.5 TB RAM 的计算机,所以请尽情享受吧! :)